Jak zmusić skrobaki do przeszukiwania zduplikowanego adresu URL?

2014-04-17 16 views 10 likes

Uczę się Scrapy sieci przeszukiwania.
domyślnie nie indeksuje duplikatów adresów URL ani adresów URL, które zostały już przeszukane.Jak zmusić skrobaki do przeszukiwania zduplikowanego adresu URL?

Jak sprawić, by Scrapy indeksował zduplikowane adresy URL lub adresy URL, które zostały już zindeksowane?
Próbowałem dowiedzieć się w Internecie, ale nie mogłem znaleźć odpowiedniej pomocy.

znalazłem DUPEFILTER_CLASS = RFPDupeFilter i SgmlLinkExtractor z Scrapy - Spider crawls duplicate urls ale to pytanie jest przeciwieństwem tego, co szukam

Źródło

2014-04-17 Alok Singh Mahor

Odpowiedz

Pewnie szuka dont_filter=True argumentu Request(). Zobacz http://doc.scrapy.org/en/latest/topics/request-response.html#request-objects

Źródło

2014-04-17 11:21:56

Bardziej eleganckim rozwiązaniem jest, aby wyłączyć filtr całkowicie duplikat:

# settings.py 
DUPEFILTER_CLASS = 'scrapy.dupefilters.BaseDupeFilter'

W ten sposób nie trzeba zaśmiecać swój kod tworzenia życzenie z dont_filter = true.

Źródło

2018-02-23 12:00:42 rrschmidt

Jak zmusić skrobaki do przeszukiwania zduplikowanego adresu URL?

Odpowiedz

Powiązane problemy