MediaWiki przechowuje pliki danych w dwóch lub trzech miejscach, w zależności jak liczyć:
Rzeczywista metadanych dla aktualnych wersji plików jest przechowywana w tabeli image
. Jest to prawdopodobnie to, czego przede wszystkim chcesz; znajdziesz najnowszy zrzut en.wikipedia tego here.
danych dla starych wersjami zastąpionej plik zostanie przeniesiony do stołu oldimage
, który ma w zasadzie taką samą strukturę jak stół image
. Ta tabela jest również składowana, ostatnia to here.
Wreszcie każdy plik również (zwykle) odpowiada zwykłej stronie wiki w przestrzeni nazw 6 (File:
). Teksty te znajdziesz w zrzutach XML, tak samo jak w przypadku innych stron.
Och, a powód nie jesteś znalezienia tych plików umieszczony w angielskiej Wikipedii wysypisk jest to, że są one ze wspólnego repozytorium w Wikimedia Commons. Znajdziesz je w numerze Commons data dumps.
chodzi o pobieranie rzeczywistych plików here's the (apparently) official documentation. O ile mogę powiedzieć, wszyscy mają na myśli „masowe pobieranie jest aktualnie (stan na wrzesień 2012) dostępny z lustrami ale nie oferowane bezpośrednio z serwerów Wikimedia.” jest to, że jeśli chcesz wszystkie obrazy w archiwum, musisz użyć lustra. Jeśli pobierasz tylko niewielki podzbiór milionów obrazów na Wikipedii i/lub Commons, powinieneś używać serwerów Wikimedia bezpośrednio.
Pamiętaj tylko, aby wykonywać podstawową kurtuazję: wyślij user-agent string, identyfikując siebie i nie uderzaj zbyt mocno w serwery. W szczególności zalecam sekwencyjne uruchamianie pobierania, aby rozpocząć pobieranie następnego pliku dopiero po ukończeniu poprzedniego.Jest to nie tylko łatwiejsze do wdrożenia niż pobieranie równoległe, ale zapewnia, że nie zużywasz więcej niż udział w przepustowości, a prędkość pobierania w mniejszym lub większym stopniu dostosowuje się automatycznie do obciążenia serwera.
Ps. Czy pobrać pliki z serwera lustrzanego lub bezpośrednio z serwerów Wikimedia, twój będzie trzeba dowiedzieć się, które są w katalogu Typowe adresy plików Wikipedia wyglądać następująco:.
http://upload.wikimedia.org/wikipedia/en/a/ab/File_name.jpg
gdzie „wikipedia/en
” część identyfikuje projekt i język Wikimedia (z przyczyn historycznych, Commons jest wymienione jako "wikipedia/commons
") i the "a/ab
" part jest podane przez pierwsze dwie cyfry heksadecymatu skrótu MD5 nazwy pliku w UTF-8 (ponieważ są one zakodowane w zrzutach bazy danych).
Oto przykład drugiego obrazu, który wykazuje te same objawy. Próbowałem kilku i nie znalazłem ani jednego, który jest na wysypisku. http://pl.wikipedia.org/wiki/File:Aerial-SanAndreas-CarrizoPlain.jpg –