Szukam pobrać pełny tekst Wikipedii dla mojego projektu w college'u. Czy muszę napisać własny pająk, aby to pobrać, czy jest dostępny publiczny zbiór danych Wikipedii dostępny online?Pobieranie tekstu w Wikipedii
Aby uzyskać trochę informacji na temat mojego projektu, chcę poznać interesujące mnie słowa z kilku artykułów, które mnie interesują. Aby znaleźć te interesujące słowa, planuję zastosować tf/idf do obliczenia częstotliwości dla każde słowo i wybierz te z wysoką częstotliwością. Ale żeby obliczyć tf, muszę znać całkowite wystąpienia w całej Wikipedii.
Jak można tego dokonać?
Mimo że odpowiedział na to pytanie i że po prostu wskazując, że Google ma swoje odpowiedzi jest mile widziana, jeśli Ty wyszukujesz "pobierz pełny tekst Wikipedii", link jest pierwszym trafieniem. Mówię to w nadziei, że pomoże to ulepszyć twoje google-fu. –
@ Uchwyt samoprzylepny Chcę tylko potwierdzić. Czy jest to poprawny link do pobrania wszystkich stron -http: //dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 – Boolean
tak, wydaje się, że są to wszystkie bieżące strony i prawdopodobnie jest to chcesz, ale nie wiedząc dokładnie, co trudno powiedzieć na pewno. –