Robię projekt, dla którego potrzebuję znać wszystkie nazwy artykułów wikipedia (nie potrzebuję treści). Czy jest miejsce, gdzie mogę pobrać te dane.Nazwy artykułów z Wikipedii (bez zawartości)
Odpowiedz
Zapoznaj się z this page here on Wikipedia - istnieje opcja, aby po prostu pobrać archiwum z nazwami artykułów. Oto actual path to the download page:
- All Titles (spakowane) - 32+ Mb w czasie oddelegowania.
Edit:
Można zauważyć non-angielskie tytuły pojawiające się na liście (i kilka przekleństw - być poinformowani) zawarty w enwiki-latest-all-titles-in-ns0.gz
. Dzieje się tak, ponieważ domyślnie większość ludzi tworzy treści na głównej angielskiej wiki (kod języka en
). Gdybyś miał zbadać inne zrzuty językowe, zauważysz, że są różne zestawy artykułów.
Czytanie na the main download page, istnieją odniesienia do możliwości użycia interfejsu Wikipedia API do wykonywania niektórych typów zapytań w Wikipedii, ale nie jestem pewien, czy to rozwiąże problem (taksonomia stron nie zapewnia prosty sposób na odróżnienie "angielskiej" treści od "treści na angielskiej wiki").
Nie znam żadnej centralnej listy artykułów, ale jeśli potrzebna jest ich duża liczba, a nie pełna lista (biorąc pod uwagę, że jakakolwiek pełna lista zawsze będzie nieaktualna), wtedy można prawdopodobnie umieścić coś razem z wget, aby rekurencyjnie śledzić linki w wikipedii ze strony głównej i przechowywać otrzymane adresy URL.
Jeśli naprawdę chciałeś skorzystać z tego rodzaju podejścia, możesz przeglądać indeksy, takie jak [wykaz alfabetyczny] (http://en.wikipedia.org/wiki/Wikipedia:Quick_index). –
Pamiętaj jednak, że Wikipedia prosi jeśli * musisz * zastosować takie podejście (które nie powinno być konieczne), ograniczasz szybkość dostępu do stron, aby uniknąć przeciążenia ich serwerów. –
To tylko artykuły w języku angielskim - skorzystaj z pierwszego linku, jeśli chcesz móc znaleźć tytuły artykułów (i streszczenia/treści) dla innych języków. –
Bardzo dziękuję @AJ – Boolean
Zauważyłem, że tytuły faktycznie zawierają inne języki. Czy istnieje sposób na zdobycie tylko tytułów w języku angielskim? – Boolean