Jak zwykle, często mam problemy, a ja dokładnie szukałem odpowiedzi na obecną, ale znalazłem się ze stratą. Oto niektóre z miejsc, w jakich znaleziono: - How to fix httplib.BadStatusLine exception? - Python httplib2 Handling Exceptions - python http status codehttplib.BadStatusLine: ''
Mój problem jest następujący. Stworzyłem pająka i chcę zaindeksować różne adresy URL. Kiedy indeksuję każdy adres URL niezależnie od siebie, wszystko działa poprawnie. Jednak gdy próbuję indeksować oba otrzymuję następujący błąd: httplib.BadStatusLine: ''
Podążyłem za radą, którą czytałem (patrz linki wspomniane powyżej) i można wydrukować odpowiedź.status dla każdego wniosku działa, ale response.url nie drukuje, a błąd jest zgłaszany. (Drukuję tylko te instrukcje, aby spróbować zidentyfikować źródło błędu).
Mam nadzieję, że to jest jasne.
Używam scrapy i selen
class PeoplePage(Spider):
name = "peopleProfile"
allowed_domains = ["blah.com"]
handle_httpstatus_list = [200, 404]
start_urls = [
"url1",
"url2"
]
def __init__(self):
self.driver = webdriver.Firefox()
def parse(self, response):
print response.status
print '???????????????????????????????????'
if response.status == 200:
self.driver.implicitly_wait(5)
self.driver.get(response.url)
print response.url
print '!!!!!!!!!!!!!!!!!!!!'
# DO STUFF
self.driver.close()
Dziękuję Nima. Myślę, że głównym problemem było to, że zamykałem sesję ... Jeszcze raz dziękuję! :-) –