coraz zabronione przez plik robots.txt: scrapy

python
scrapy
web-crawler

2016-05-17 29 views 26 likes

podczas indeksowania strony internetowej jak https://www.netflix.com, coraz zabronione przez plik robots.txt: https://www.netflix.com/>coraz zabronione przez plik robots.txt: scrapy

Błąd: Brak reakcji pobrać za: https://www.netflix.com/

Źródło

2016-05-17 deepak kumar

robots.txt to plik tekstowy, że roboty szanować, nie można zabronić cię od robienia czegokolwiek. Netflix ma prawdopodobnie inne przeszkody w skrobaniu. – Selcuk

Odpowiedz

W nowej wersji (scrapy 1.1) uruchomionej 2016-05-11 indeksowanie najpierw pobiera plik robots.txt przed zaindeksowaniem. Aby zmienić tę zmianę zachowań w twojej settings.py z ROBOTSTXT_OBEY

ROBOTSTXT_OBEY=False

Oto release notes

Źródło

2016-05-17 14:24:08

Pierwszą rzeczą, którą musisz zapewnić, to zmienić klienta użytkownika w żądaniu, w przeciwnym razie domyślny agent użytkownika zostanie zablokowany na pewno.

Źródło

2016-05-17 13:23:52

coraz zabronione przez plik robots.txt: scrapy

Odpowiedz

Powiązane problemy