2012-11-22 17 views
7

ja doznaję d³ugiego indeksowania z scrapy (około 1 strony/sek). Przeszukuję główną witrynę z serwerów aws, więc nie sądzę, że jest to problem z siecią. Wykorzystanie procesora jest bliskie 100 i jeśli uruchomię wiele procesów scrapy, szybkość indeksowania jest znacznie większa.Scrapy Crawling Prędkość jest powolny (60 stron/min)

Scrapy wydaje się czołgać kilka stron, a następnie zawiesza się na kilka sekund, a następnie powtarza.

Próbowałem grać z: CONCURRENT_REQUESTS = CONCURRENT_REQUESTS_PER_DOMAIN = 500

ale to naprawdę nie wydaje się, aby przesunąć igły przeszłość około 20.

+0

która wersja scrapy? Jakieś domyślne rozszerzenia/oprogramowanie pośrednie? pauzami może być jakiś kod blokujący, czy możesz coś zrobić (np. zapisywać dane do DB, ładować do s3 itd.) w wątku reaktora, który blokuje scrapy? –

+0

@somewire check CPU | HDD | Wykorzystanie sieci przy użyciu tylko złomowania bez analizowania strony za pomocą lxml. Ustaw 'LOG_LEVEL = 'DEBUG'' – nk9

Odpowiedz

2

Czy jesteś pewien, że są dopuszczone do indeksowania cel strona z dużą prędkością? Wiele stron wdraża próg pobierania i "po pewnym czasie" zaczyna reagować powoli.

+0

Masz rację, jeśli żądanie zwróci 503, a jeśli serwer frontend to nginx http://nginx.org/en/docs/http/ngx_http_limit_conn_module.html – nk9