ja doznaję d³ugiego indeksowania z scrapy (około 1 strony/sek). Przeszukuję główną witrynę z serwerów aws, więc nie sądzę, że jest to problem z siecią. Wykorzystanie procesora jest bliskie 100 i jeśli uruchomię wiele procesów scrapy, szybkość indeksowania jest znacznie większa.Scrapy Crawling Prędkość jest powolny (60 stron/min)
Scrapy wydaje się czołgać kilka stron, a następnie zawiesza się na kilka sekund, a następnie powtarza.
Próbowałem grać z: CONCURRENT_REQUESTS = CONCURRENT_REQUESTS_PER_DOMAIN = 500
ale to naprawdę nie wydaje się, aby przesunąć igły przeszłość około 20.
która wersja scrapy? Jakieś domyślne rozszerzenia/oprogramowanie pośrednie? pauzami może być jakiś kod blokujący, czy możesz coś zrobić (np. zapisywać dane do DB, ładować do s3 itd.) w wątku reaktora, który blokuje scrapy? –
@somewire check CPU | HDD | Wykorzystanie sieci przy użyciu tylko złomowania bez analizowania strony za pomocą lxml. Ustaw 'LOG_LEVEL = 'DEBUG'' – nk9