Robię skrobanie w Internecie przy użyciu selonu w języku Python z Proxy.Selenium Webdriver/Beautifulsoup + Web Scraping + Błąd 416
Chcę przeglądać ponad 10 tys. Stron pojedynczej witryny przy użyciu tego skrobania.
Numer używa tego serwera proxy. Mogę wysłać żądanie tylko raz. kiedy wysyłam kolejną prośbę do tego samego linku lub innego linku do tej strony, otrzymuję błąd 416 (rodzaj bloku IP za pomocą firewalla) przez 1-2 godziny.
Uwaga: Jestem w stanie wykonać skrobanie wszystkich normalnych stron za pomocą tego kodu, ale ta strona ma pewne zabezpieczenia, które uniemożliwiają mi skrobanie.
Oto kod.
profile = webdriver.FirefoxProfile()
profile.set_preference("network.proxy.type", 1)
profile.set_preference(
"network.proxy.http", "74.73.148.42")
profile.set_preference("network.proxy.http_port", 3128)
profile.update_preferences()
browser = webdriver.Firefox(firefox_profile=profile)
browser.get('http://www.example.com/')
time.sleep(5)
element = browser.find_elements_by_css_selector(
'.well-sm:not(.mbn) .row .col-md-4 ul .fs-small a')
for ele in element:
print ele.get_attribute('href')
browser.quit()
Jakieś rozwiązanie?