Natknąłem się na bibliotekę pytonów wikidump, co moim zdaniem pasuje do mnie.Szukam przykładu lub dokumentacji dla wikidump python lib
Mogę ominąć, patrząc na kod źródłowy, ale jestem nowy w Pythonie i nie chcę pisać kodu BS, ponieważ projekt, którego potrzebuję, jest dla mnie ważny.
Mam plik "wiki-SPECIFICDATE-pages-articles.xml.bz2" i będę musiał użyć tego jako mojego źródła do pobierania pojedynczych artykułów. Czy ktoś może mi dać wskazówki, jak właściwie to osiągnąć, a nawet lepiej, w jakiejś dokumentacji? Nie mogłem znaleźć żadnego!
(ps jeśli masz nic lepszego i prawidłowo doc'd lib, proszę mi powiedzieć)
Czy obejrzałeś ich klienta linii poleceń na https://github.com/saffsd/wikidump/blob/master/src/wikidump/__init__.py, który może być użyty jako przykład? – MaxSem
Używam http://medialab.di.unipi.it/wiki/Wikipedia_Extractor do konwersji Wikipedii na zwykły tekst. Można go łatwo modyfikować, aby pobrać dowolny artykuł. Po prostu debuguj przetwarzanie jednego artykułu, a zobaczysz, gdzie wstawić dopasowanie regex do pobierania. – Den