2013-04-17 20 views
6

Natknąłem się na bibliotekę pytonów wikidump, co moim zdaniem pasuje do mnie.Szukam przykładu lub dokumentacji dla wikidump python lib

Mogę ominąć, patrząc na kod źródłowy, ale jestem nowy w Pythonie i nie chcę pisać kodu BS, ponieważ projekt, którego potrzebuję, jest dla mnie ważny.

Mam plik "wiki-SPECIFICDATE-pages-articles.xml.bz2" i będę musiał użyć tego jako mojego źródła do pobierania pojedynczych artykułów. Czy ktoś może mi dać wskazówki, jak właściwie to osiągnąć, a nawet lepiej, w jakiejś dokumentacji? Nie mogłem znaleźć żadnego!

(ps jeśli masz nic lepszego i prawidłowo doc'd lib, proszę mi powiedzieć)

+1

Czy obejrzałeś ich klienta linii poleceń na https://github.com/saffsd/wikidump/blob/master/src/wikidump/__init__.py, który może być użyty jako przykład? – MaxSem

+1

Używam http://medialab.di.unipi.it/wiki/Wikipedia_Extractor do konwersji Wikipedii na zwykły tekst. Można go łatwo modyfikować, aby pobrać dowolny artykuł. Po prostu debuguj przetwarzanie jednego artykułu, a zobaczysz, gdzie wstawić dopasowanie regex do pobierania. – Den

Odpowiedz

0

Nie jestem pewien, czy rozumiem pytanie, ale jeśli masz Wikipedia zrzucić i trzeba analizować wikicode, ja sugerowałoby mwparserfromhell lib.

Kolejny potężny framework jest Pywikibot, że jest historycznym ramy dla użytkowników bota na Wikipedii (w ten sposób, że ma wiele skryptów dedykowanych piszących stron, zamiast czytania i artykułów parsowania). Ma dużo dokumentacji (choć czasami jest przestarzała) i wykorzystuje API MediaWiki.

Możesz użyć ich obu, oczywiście: PWB do pobierania artykułów i mwparserfromhell do parsowania.