Chciałbym napisać prosty pająk sieciowy lub po prostu użyć wget
, aby pobrać wyniki pdf z google scholar. Byłby to całkiem sprytny sposób na uzyskanie dokumentów do badań.Pobieranie wszystkich plików pdf z wyników wyszukiwania Google Scholar za pomocą wget
Czytałem następujące strony na stackoverflow:
Crawl website using wget and limit total number of crawled links
How do web spiders differ from Wget's spider?
Downloading all PDF files from a website
How to download all files (but not HTML) from a website using wget?
Ostatnia strona jest prawdopodobnie najbardziej inspirujące wszystkim. Próbowałem użyć wget
zgodnie z sugestią na this.
Moja strona wyników wyszukiwania Google dla grona scholarów to thus, ale nic nie zostało pobrane.
Biorąc pod uwagę, że mój poziom zrozumienia webspiderzy jest minimalny, co powinienem zrobić, aby było to możliwe? Zdaję sobie sprawę, że pisanie pająka jest być może bardzo zaangażowane i jest projektem, którego może nie chcę podjąć. Jeśli jest to możliwe, używając wget
, byłoby to absolutnie niesamowite.
Nie, niestety, moje okno terminala ulega awarii i wyłącza się po uruchomieniu tego polecenia. Nie używam Mozilli 5.0 ... to jest Firefox 15. .. więc czy powinienem wprowadzić odpowiednie zmiany? Zmieniłem 'firefox 3.0.3' na' firefox 15', ale bez skutku. – drN
Może to być kontynuacja linii (\). Edytowane, aby je usunąć - spróbuj ponownie. Agent użytkownika może być, co chcesz ... – dongle
działa jak urok! ':)' – drN