2014-04-17 14 views
10

Uczę się Scrapy sieci przeszukiwania.
domyślnie nie indeksuje duplikatów adresów URL ani adresów URL, które zostały już przeszukane.Jak zmusić skrobaki do przeszukiwania zduplikowanego adresu URL?

Jak sprawić, by Scrapy indeksował zduplikowane adresy URL lub adresy URL, które zostały już zindeksowane?
Próbowałem dowiedzieć się w Internecie, ale nie mogłem znaleźć odpowiedniej pomocy.

znalazłem DUPEFILTER_CLASS = RFPDupeFilter i SgmlLinkExtractor z Scrapy - Spider crawls duplicate urls ale to pytanie jest przeciwieństwem tego, co szukam

Odpowiedz

1

Bardziej eleganckim rozwiązaniem jest, aby wyłączyć filtr całkowicie duplikat:

# settings.py 
DUPEFILTER_CLASS = 'scrapy.dupefilters.BaseDupeFilter' 

W ten sposób nie trzeba zaśmiecać swój kod tworzenia życzenie z dont_filter = true.