podczas indeksowania strony internetowej jak https://www.netflix.com, coraz zabronione przez plik robots.txt: https://www.netflix.com/>coraz zabronione przez plik robots.txt: scrapy
Błąd: Brak reakcji pobrać za: https://www.netflix.com/
podczas indeksowania strony internetowej jak https://www.netflix.com, coraz zabronione przez plik robots.txt: https://www.netflix.com/>coraz zabronione przez plik robots.txt: scrapy
Błąd: Brak reakcji pobrać za: https://www.netflix.com/
W nowej wersji (scrapy 1.1) uruchomionej 2016-05-11 indeksowanie najpierw pobiera plik robots.txt przed zaindeksowaniem. Aby zmienić tę zmianę zachowań w twojej settings.py
z ROBOTSTXT_OBEY
ROBOTSTXT_OBEY=False
Oto release notes
Pierwszą rzeczą, którą musisz zapewnić, to zmienić klienta użytkownika w żądaniu, w przeciwnym razie domyślny agent użytkownika zostanie zablokowany na pewno.
robots.txt to plik tekstowy, że roboty szanować, nie można zabronić cię od robienia czegokolwiek. Netflix ma prawdopodobnie inne przeszkody w skrobaniu. – Selcuk