Jestem całkiem nowy w MediaWiki, a teraz mam mały problem. Mam tytuł pewnej strony Wiki i chcę uzyskać tylko tekst tej strony za pomocą api.php, ale wszystko, co znalazłem w interfejsie API, jest sposobem na uzyskanie zawartości Wiki na stronie (ze znacznikami wiki). Użyłem tego żądania HTTP ...Pobierz zawartość tekstową ze strony mediawiki za pośrednictwem interfejsu API
/api.php?action=query&prop=revisions&rvlimit=1&rvprop=content&format=xml&titles=test
Ale potrzebuję tylko treści tekstowych bez znaczników Wiki. Czy to możliwe z interfejsem API MediaWiki?
mam zrobić, to samo, mam aplikacji Java, które muszą otrzymywać treść tekstowa strony wiki. Kiedy używam api i otrzymuję stronę wikisyntax działa bardzo szybko, ale potrzebuję czystego tekstu, próbowałem zażądać strony HTML i usunąć znaczniki HTML, ale działa powoli, dlatego pytam o tę funkcję w interfejsie wiki API . A może teraz jakiś dobry konwerter tekstu wikisyntax dla Javy, a następnie mogę przekonwertować go bezpośrednio w Javie? –
Prawdziwym problemem z językiem wikipedii jest to, że Turing jest kompletny. Jeśli przyjrzysz się dokładnie kodowi strony, zauważysz wszystkie rodzaje niestandardowych funkcji. Definicje tych funkcji również muszą zostać pobrane, a następnie zinterpretowane, co może rozszerzyć się na jeszcze więcej funkcji. Właśnie dlatego powróciłem do parsowania html, który zawiera kompletny, wyrenderowany tekst. –
WIKITekst MediaWiki nie jest w pełni ukończony, ponieważ twórcy odważnie zwalczali żądania redaktorów dotyczące konstrukcji pętli. Ale masz rację, że aby uzyskać zwykły tekst z MediaWiki, musisz pobrać kod HTML, a następnie go usunąć. Możesz użyć tego narzędzia 'html2txt.pl' zrobionego w Perlu dla tego zadania lub przekonwertować je na twój ulubiony język: https://gist.github.com/751910 – hippietrail