Zastanawiam się, czy ktoś kiedykolwiek próbował wyodrębnić/śledzić linki do pozycji RSS za pomocą SgmlLinkExtractor/CrawlSpider. Nie mogę zmusić go do pracy ...Scrapy - podążaj za linkami RSS
używam następującą regułę:
rules = ( Rule(SgmlLinkExtractor(tags=('link',), attrs=False), follow=True, callback='parse_article'), )
(mając na uwadze, że linki rss znajdują się w łącza tag).
Nie jestem pewien, jak powiedzieć SgmlLinkExtractor wyodrębnić tekst() z link i nie szukać atrybuty ...
Każda pomoc jest mile widziana, góry dzięki
mógłby pan wyjaśnić różnicę między pomocą reguł CrawlSpider i wdrożenie własnego wydobycia link na wywołanie zwrotne? Od pewnego czasu walczę o różnicę, a po kilku lekturach do doktora ... wciąż nic. Używam twojej metody ze względu na złe doświadczenia z używania reguł, ale chcę tylko wiedzieć, dlaczego. T.I.A – romeroqj
Istnieje ['' 'XMLFeedSpider'''' (https://scrapy.readthedocs.org/en/latest/topics/spiders.html?highlight=rule#xmlfeedspider-example), którego można używać w dzisiejszych czasach. – opyate