2010-04-21 11 views
18

Szukam pobrać pełny tekst Wikipedii dla mojego projektu w college'u. Czy muszę napisać własny pająk, aby to pobrać, czy jest dostępny publiczny zbiór danych Wikipedii dostępny online?Pobieranie tekstu w Wikipedii

Aby uzyskać trochę informacji na temat mojego projektu, chcę poznać interesujące mnie słowa z kilku artykułów, które mnie interesują. Aby znaleźć te interesujące słowa, planuję zastosować tf/idf do obliczenia częstotliwości dla każde słowo i wybierz te z wysoką częstotliwością. Ale żeby obliczyć tf, muszę znać całkowite wystąpienia w całej Wikipedii.

Jak można tego dokonać?

+0

Mimo że odpowiedział na to pytanie i że po prostu wskazując, że Google ma swoje odpowiedzi jest mile widziana, jeśli Ty wyszukujesz "pobierz pełny tekst Wikipedii", link jest pierwszym trafieniem. Mówię to w nadziei, że pomoże to ulepszyć twoje google-fu. –

+0

@ Uchwyt samoprzylepny Chcę tylko potwierdzić. Czy jest to poprawny link do pobrania wszystkich stron -http: //dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 – Boolean

+0

tak, wydaje się, że są to wszystkie bieżące strony i prawdopodobnie jest to chcesz, ale nie wiedząc dokładnie, co trudno powiedzieć na pewno. –

Odpowiedz

20

z wikipedii: http://en.wikipedia.org/wiki/Wikipedia_database

Wikipedia oferuje bezpłatne kopie wszystkich treści dostępnych zainteresowanym użytkownikom. Te bazy danych mogą być używane do tworzenia kopii lustrzanych, użytku osobistego, nieformalnych kopii zapasowych, użycia w trybie offline lub zapytań do bazy danych (takich jak Wikipedia: Maintenance). Wszystkie treści tekstowe są licencjonowane na licencji Creative Commons Uznanie autorstwa-Na tych samych warunkach 3.0 (CC-BY-SA) i GNU Free Documentation License (GFDL). Obrazy i inne pliki są dostępne na różnych warunkach, zgodnie ze szczegółami na ich stronach opisu. Aby uzyskać porady na temat przestrzegania tych licencji, zobacz Wikipedię: Prawa autorskie.

Wygląda na to, że masz szczęście. Z sekcji przegubowe:

Na dzień 12 marca 2010 roku, ostatniego kompletnego wyrzucenia anglojęzycznej Wikipedii można znaleźć na http://download.wikimedia.org/enwiki/20100130/ Jest to pierwszy pełny zrzut z angielskojęzycznej Wikipedii zostały utworzone od 2008 Należy pamiętać, że nowsze zrzuty (takie jak zrzut 20100312) są niekompletne.

więc dane jest tylko 9 dni :)

+4

Poprawiłem twoją odpowiedź na innych, po prostu dlatego, że zrobiłeś więcej niż po prostu wstawiłeś link. – UnkwnTech

+0

Obcinam i wklejam :) –

+0

Chcę tylko potwierdzić. Czy jest to poprawny link do pobrania wszystkich stron -http: //dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 – Boolean

3

Biorąc pod uwagę wielkość zrzutu, prawdopodobnie będzie lepiej służył pomocą częstotliwości słowo w języku angielskim, lub użyć MediaWiki API sondować losowo strony (lub najczęściej odwiedzane strony). Istnieją ramy do budowania botów oparte na tym API (w Ruby, C#, ...), które mogą ci pomóc.

9

Jeśli potrzebujesz tylko wersja tekstowa, a nie MediaWiki XML, a następnie można go pobrać tutaj: http://kopiwiki.dsd.sztaki.hu/

+0

Świetnie! Bardzo dobra robota. Dodaj więcej języków :-) –

+3

Link jest uszkodzony. – tmnol

+0

Nowy link tutaj: https: //dsd.sztaki.hu/products/kopiwiki. – thuzhf