Pobrałem zrzut Wikipedii i chcę przekonwertować format wiki na mój format obiektu. Czy istnieje dostępny parser wiki, który konwertuje obiekt na XML?Parser dla Wikipedii
Odpowiedz
Zobacz java-wikipedia-parser. Nigdy go nie używałem, ale według dokumentów:
Parser jest dostarczany z generatorem HTML . Można jednak sterować wyjściem , które jest generowane przez , przekazując własną implementację interfejsu
be.devijver.wikipedia.Visitor
.
Może to pomóc: a page with converters from mediawiki to other formats, including docbook. Docbook jest standardowym formatem opartym na XML, który może odpowiadać twoim potrzebom (reprezentacja xml treści mediawiki)
Nie wiem, jak dokładnie wygląda format Dll Wikipedii. Ale jeśli część tekstu znajduje się w znacznikach Wikipedii, proponuję zbadać http://lucene.apache.org/java/3_0_2/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis/WikipediaTokenizer.html. Jest to jedna z klas pakietu Wikipedii dla Apache Lucene. Nie użyłem go, ale apache lucene jest dość dojrzałym projektem, warto więc wypróbować jego - w tym przypadku eksperymentalny - pakiet.
Możesz użyć szerokiej gamy narzędzi do analizy zawartości. Wszystkie języki skryptów mają moduły. Na przykład język Perl ma Text::Markup::Trac, który jest parserem składni wiki Trac dla Text :: Markup. Generuje plik HTML.
u może spróbować wikiprep to parser Perl wikipedia check it's page
wyprowadza wiele plików niektóre z nich są
1- wikipedia przeanalizowane w pliku XML 2- cat-hier, który zawiera kategorie wikipedia hierarchię
próbowałem go i jest bardzo przydatny to jedyny problem, który wymaga dużej ilości pamięci dostępnej do przetwarzania prawdopodobnie więcej niż 4GB pamięci RAM również możesz pobrać przygotowaną wersję XML z here, który jest również dostępny na stronie:
Analizator składni JWPL analizuje strukturę tekstu ze znacznikami MediaWiki i reprezentuje go jako obiekt Java. Pozwala to na strukturalny dostęp do treści np. Wikipedia lub Wikisłownik. Nie ma samodzielnego wydania analizatora składni, ponieważ jest to część wydania API Wikipedii JWPL. Jednak może on być używany idealnie bez dostępu do Wikipedii za pomocą JWPL.
Wiki Parser konwertuje Wikipedia zrzuca na analizowany XML. Może być dokładnie tym, czego potrzebujesz.
+1 za pytanie, ponieważ właśnie zastanawiałem się nad własnymi. –