Jestem początkujący w Pythonie, a ja używam Scrapy do projektu internetowego personelu.Używanie oprogramowania pośredniego do ignorowania duplikatów w Scrapii
Używam Scrapy do wielokrotnego wyodrębniania danych z kilku stron internetowych, więc muszę sprawdzić każde przeszukiwanie, jeśli link jest już w bazie danych przed jej dodaniem. Zrobiłem to w klasie piplines.py:
class DuplicatesPipline(object):
def process_item(self, item, spider):
if memc2.get(item['link']) is None:
return item
else:
raise DropItem('Duplication %s', item['link'])
Ale słyszałem, że używanie Middleware jest lepsze dla tego zadania.
Znalazłem to trochę trudne w użyciu oprogramowania pośredniego w Scrapy, czy ktoś może przekierować mnie do dobrego samouczka.
porady są mile widziane.
Dzięki,
EDIT:
używam MySQL i memcache.
Oto moja próba według @Talvalin odpowiedź:
# -*- coding: utf-8 -*-
from scrapy.exceptions import IgnoreRequest
import MySQLdb as mdb
import memcache
connexion = mdb.connect('localhost','dev','passe','mydb')
memc2 = memcache.Client(['127.0.0.1:11211'], debug=1)
class IgnoreDuplicates():
def __init__(self):
#clear memcache object
memc2.flush_all()
#update memc2
with connexion:
cur = connexion.cursor()
cur.execute('SELECT link, title FROM items')
for item in cur.fetchall():
memc2.set(item[0], item[1])
def precess_request(self, request, spider):
#if the url is not in memc2 keys, it returns None.
if memc2.get(request.url) is None:
return None
else:
raise IgnoreRequest()
DOWNLOADER_MIDDLEWARES = {
'myproject.middlewares.IgnoreDuplicates': 543,
'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 500, }
Ale wydaje się, że metoda process_request jest ignorowany podczas indeksowania.
Dzięki z góry,
Zasadniczo trzeba utworzyć klasy middleware downloader, który implementuje metodę 'process_response' i ładuje zaindeksowanych adresów URL i sprawdza adres URL odpowiedzi przychodzącej, aby zobaczyć, czy jest mecz. http://doc.scrapy.org/en/latest/topics/downloader-middleware.html – Talvalin
Jakiego DB używasz przy okazji? – Talvalin
Używam MySql i memcache. Dzięki za odpowiedź. – elhoucine