To samo pytanie zadawane 2,5 roku temu w Downloading a web page and all of its resource files in Python, ale nie prowadzi do odpowiedzi, a "zobacz powiązany temat" tak naprawdę nie pyta o to samo.Odpowiednik wget w Pythonie do pobrania strony i zasobów
Chcę pobrać wszystko na stronie, aby możliwe było przeglądanie go tylko z plików.
Komenda
wget --page-rekwizytów --domains = domain --no-parent --html-extension --convert-linki --restrict-file-names = okien
dokładnie to, czego potrzebuję. Chcemy jednak móc powiązać go z innymi rzeczami, które muszą być przenośne, więc wymaga tego w Pythonie.
Patrzyłem na piękną zupę, scrapy, różne pająki umieszczone w pobliżu, ale te wszystkie wydają się zajmować pozyskiwaniem danych/linków w sprytny, ale konkretny sposób. Używanie ich do robienia tego, co chcę, wydaje się, że będzie wymagało wiele pracy, aby znaleźć wszystkie zasoby, kiedy jestem pewien, że musi być łatwy sposób.
bardzo dziękuję
import urllib urllib.urlretrieve ("http://www.somesite.com/file "cokolwiek", "nazwa pliku do pobrania jako") – CR0SS0V3R
, więc wiem, że mogę pobrać pojedynczy plik w ten sposób, ale będę musiał użyć przeszukiwacza i ustawić wiele warunków, aby znaleźć wszystkie pliki, które chcę (wszystko, aby móc wyświetlić sekcję strony internetowej w trybie offline). Czy w witrynie Python musi znajdować się coś podobnego do strony pobierania plików i zapotrzebowań? – Conrad
można użyć funkcji parsowania w pętli for do wyszukiwania linków w pobranym pliku (lub czytanym skądkolwiek) – CR0SS0V3R