2010-10-08 10 views
12

Pobrałem zrzut Wikipedii i chcę przekonwertować format wiki na mój format obiektu. Czy istnieje dostępny parser wiki, który konwertuje obiekt na XML?Parser dla Wikipedii

+0

+1 za pytanie, ponieważ właśnie zastanawiałem się nad własnymi. –

Odpowiedz

6

Zobacz java-wikipedia-parser. Nigdy go nie używałem, ale według dokumentów:

Parser jest dostarczany z generatorem HTML . Można jednak sterować wyjściem , które jest generowane przez , przekazując własną implementację interfejsu be.devijver.wikipedia.Visitor .

2

Nie wiem, jak dokładnie wygląda format Dll Wikipedii. Ale jeśli część tekstu znajduje się w znacznikach Wikipedii, proponuję zbadać http://lucene.apache.org/java/3_0_2/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis/WikipediaTokenizer.html. Jest to jedna z klas pakietu Wikipedii dla Apache Lucene. Nie użyłem go, ale apache lucene jest dość dojrzałym projektem, warto więc wypróbować jego - w tym przypadku eksperymentalny - pakiet.

0

Możesz użyć szerokiej gamy narzędzi do analizy zawartości. Wszystkie języki skryptów mają moduły. Na przykład język Perl ma Text::Markup::Trac, który jest parserem składni wiki Trac dla Text :: Markup. Generuje plik HTML.

-1

u może spróbować wikiprep to parser Perl wikipedia check it's page

wyprowadza wiele plików niektóre z nich są

1- wikipedia przeanalizowane w pliku XML 2- cat-hier, który zawiera kategorie wikipedia hierarchię

próbowałem go i jest bardzo przydatny to jedyny problem, który wymaga dużej ilości pamięci dostępnej do przetwarzania prawdopodobnie więcej niż 4GB pamięci RAM również możesz pobrać przygotowaną wersję XML z here, który jest również dostępny na stronie:

2

Analizator składni JWPL analizuje strukturę tekstu ze znacznikami MediaWiki i reprezentuje go jako obiekt Java. Pozwala to na strukturalny dostęp do treści np. Wikipedia lub Wikisłownik. Nie ma samodzielnego wydania analizatora składni, ponieważ jest to część wydania API Wikipedii JWPL. Jednak może on być używany idealnie bez dostępu do Wikipedii za pomocą JWPL.

http://code.google.com/p/jwpl/wiki/JWPLParser