Indeksowanie Internetu

Chcę indeksować w poszukiwaniu określonych rzeczy. Konkretnie wydarzenia, które mają miejsce, takie jak koncerty, filmy, otwarcia galerii itp. Wszystko, na co ktoś może poświęcić czas.Indeksowanie Internetu

Jak mogę wdrożyć przeszukiwacz?

Słyszałem Grub (grub.org -> Wikia) i Heritix (http://crawler.archive.org/)

Czy są jakieś inne?

Jakie opinie ma każdy?

-Jason

Źródło

2009-04-07 Toddly

Jest to dobra książka na ten temat mogę polecić zwanego Webbots, Spiders, and Screen Scrapers: A Guide to Developing Internet Agents with PHP/CURL.

Źródło

2009-04-08 00:07:21

tak! to książka, która wszystko zaczęła dla mnie. – KJW

Myślę, że część webcrawlera będzie najłatwiejszą częścią zadania. Najtrudniejsze będzie ustalenie, które strony odwiedzić i jak odkrywać wydarzenia na stronach, które chcesz odwiedzić. Może chcesz sprawdzić, czy chcesz uzyskać dane, korzystając z Google lub Yahoo API. Wykonali już pracę polegającą na indeksowaniu wielu stron w Internecie - możesz skupić się na, moim zdaniem, znacznie większym problemie z przesiewaniem danych, aby uzyskać pożądane wydarzenia.

Źródło

2009-04-08 01:01:17

Czy istnieje szczególny wymóg język?,

Spędziłem trochę czasu gry z Chilkat Pająk Lib dla .net jakiś czas temu dla osobistej eksperymentowania,

ostatnio sprawdzałem tam pająk Libs, są licencjonowane jako freeware, (Altho nie open source o ile wiem :()

Wydaje się, że mają do pyton Lib.

http://www.example-code.com/python/pythonspider.asp #Python http://www.example-code.com/csharp/spider.asp # .Net

Źródło

2009-04-08 02:07:24 Fusspawn

Cokolwiek robisz, proszę bądź dobrym obywatelem i postępuj zgodnie z plikiem robots.txt. Możesz sprawdzić referencje na stronie wikipedia pod adresem focused crawlers. Właśnie zdałem sobie sprawę, że znam jednego z autorów Topical Web Crawlers: Evaluating Adaptive Algorithms. Mały świat.

Źródło

2009-04-08 02:49:04 tvanfosson

Jeśli okaże się, że przeszukiwanie Internetu staje się zadaniem, które może przynieść sukces, warto rozważyć zbudowanie subskrypcji kanałów RSS dla popularnych witryn zdarzeń, takich jak craigslist i upcoming.org.

Każda z tych witryn udostępnia zlokalizowane zdarzenia, które można przeszukiwać. RSS oferuje (kilka) standardowych formatów, zamiast wszystkiego zniekształconego html, który tworzy sieć ...

Istnieją biblioteki opensource, takie jak ROME (java), które mogą pomóc w konsumpcji kanałów RSS.

Źródło

2009-04-08 05:16:23

Po zgłoszeniu Kevin's sugestii kanałów RSS, możesz sprawdzić Yahoo pipes. Jeszcze ich nie wypróbowałem, ale myślę, że pozwalają ci przetwarzać kilka kanałów RSS i generować strony internetowe lub więcej kanałów RSS.

Źródło

2009-05-14 21:40:24

Nigdy nie używaj rur do niczego dużego. Nie jest bardzo niezawodny i dość powolny. – mixdev

Doskonały tekst wprowadzający do tego tematu to Introduction to Information Retrieval (pełny tekst dostępny online). Ma rozdział o numerze Web crawling, ale co ważniejsze, stanowi podstawę dla rzeczy, które chcesz zrobić z przeszukanymi dokumentami.

Introduction to Information Retrieval http://nlp.stanford.edu/IR-book/iir.jpg

Źródło

2009-05-14 21:59:40

Fantastyczna książka. –

Wyjazd Scrapy. Jest to framework indeksujący do otwartych źródeł napisany w Pythonie (słyszałem, że jest podobny do Django, z wyjątkiem tego, że zamiast wyświetlać strony, pobiera je). Jest łatwo rozszerzalny, rozproszony/równoległy i wygląda bardzo obiecująco.

Używałbym Scrapy, ponieważ w ten sposób mogłem zaoszczędzić mocnych stron na coś bardziej trywialnego, jak na przykład wyodrębnić poprawne dane ze zeskrobanej zawartości itp. I wstawić do bazy danych.

Źródło

2009-06-09 21:08:36 hannson

Nutch Crawler

Źródło

2009-06-15 19:45:51 bill

Właściwie pisząc skali skierowany robota jest dość trudnym zadaniem. Zaimplementowałem go w pracy i utrzymywałem go przez dłuższy czas. Istnieje wiele problemów, o których istnieniu nie wiesz, dopóki ich nie napiszesz i nie rozwiążesz problemów. W szczególności zajmuje się CDN i przyjaznym indeksowaniem stron. Algorytmy adaptacyjne są bardzo ważne lub użyjesz filtrów DOS. Tak czy owak, nie będziesz wiedział, czy twój indeks jest wystarczająco duży.

Co o tym myśleć:

Co oprócz zdolnego przepustowości?
Jak radzisz sobie z wyłączeniami witryny?
Co się stanie, jeśli jesteś zablokowany?
Czy chcesz zaangażować się w ukrywanie czołgania się (kontrewersyjne i właściwie dość trudne do uzyskania prawo)?

Naprawdę napisałem kilka rzeczy, że jeśli kiedykolwiek się do tego zabiorę, mogę umieścić online o budowie gąsienic, ponieważ zbudowanie właściwego jest o wiele trudniejsze, niż ludzie ci powiedzą. Większość robotów open source działa wystarczająco dobrze dla większości ludzi, więc jeśli możesz, polecam użyć jednego z nich. Który z nich jest wyborem funkcji/platformy.

Źródło

2009-07-31 21:52:54

Odpowiedz

Powiązane problemy