Zaczynam od scrapy i mam pierwszy poważny problem. Pobiera zdjęcia. To jest mój pająk.Pobieranie zdjęć ze złomowaniem
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from example.items import ProductItem
from scrapy.utils.response import get_base_url
import re
class ProductSpider(CrawlSpider):
name = "product"
allowed_domains = ["domain.com"]
start_urls = [
"http://www.domain.com/category/supplies/accessories.do"
]
def parse(self, response):
hxs = HtmlXPathSelector(response)
items = []
sites = hxs.select('//td[@class="thumbtext"]')
number = 0
for site in sites:
item = ProductItem()
xpath = '//div[@class="thumb"]/img/@src'
item['image_urls'] = site.select(xpath).extract()[number]
item['image_urls'] = 'http://www.domain.com' + item['image_urls']
items.append(item)
number = number + 1
return items
Kiedy cytuję ITEM_PIPELINES
i IMAGES_STORE
w settings.py
ten sposób uzyskać prawidłowego URL obrazu Chcę pobrać (kopia wklejone go w wyszukiwarce check).
Ale kiedy cytatu tych i uzyskać następujący błąd:
raise ValueError('Missing scheme in request url: %s' % self._url')
exceptions.ValueError: Missing scheme in request url:h
i nie mogę ściągnąć moje zdjęcia.
Szukałem przez cały dzień i nie znalazłem nic przydatnego.
masz rurociągu do przetwarzania adresów URL? czy zarejestrowałeś swój potok w settings.py? http://doc.scrapy.org/en/latest/topics/images.html, to świetne odniesienie. czy masz odpowiednie uprawnienia do zapisu do ścieżki IMAGE_STORE? – dm03514
tak Zrobiłem wszystko, co zostało powiedziane, właściwie użyłem tego odniesienia, ale nadal ... nie – iblazevic