2008-10-07 21 views
16

Potrzebuję zindeksować wiele stron internetowych, jakie są dobre narzędzia webcrawler? Jestem po czymś, z czym może porozmawiać .NET, ale to nie jest showstopper.Co to jest dobre narzędzie przeszukiwacza sieci

To, czego naprawdę potrzebuję, to coś, co mogę dać URL strony do & będzie śledzić każdy link i przechowywać zawartość do indeksowania.

+0

Możesz użyć crawler4j, jeśli używasz java. Oto przewodnik krok po kroku, jak skonfigurować robota crawler4j wraz z fragmentem kodu, aby pobrać obrazy, linki i wiadomości e-mail z tym łączem - http://www.buggybread.com/2013/01/create-your-own-email-and- image.html –

Odpowiedz

12

HTTrack - http://www.httrack.com/ - to bardzo dobra kopiarka WWW. Działa całkiem nieźle. Używam go przez długi czas.

Nutch jest robotem sieciowym (robotem indeksującym jest program, którego szukasz) - http://lucene.apache.org/nutch/ - który wykorzystuje najlepsze narzędzie wyszukiwania lucene.

1

Sphider jest całkiem niezła. To PHP, ale może być pomocna.

0

Jeszcze nie używałem tego, ale this wygląda interesująco. Autor napisał to od początku i opublikował, jak to zrobił. Kod do niego jest również dostępny do pobrania.

2

Searcharoo.NET zawiera pająk, który przeszukuje i indeksuje zawartość oraz wyszukiwarkę, która go używa. Powinieneś być w stanie odnaleźć kod Searcharoo.Indexer.EXE, aby uwięzić zawartość po jej pobraniu i dodać z niej swój niestandardowy kod ...

Jest to bardzo podstawowe (zawiera cały kod źródłowy, i jest objaśniony w sześciu artykułach CodeProject, z których najnowszy jest tutaj Searcharoo v6): pająk śledzi linki, mapy obrazów, obrazy, stosuje się do dyrektyw ROBOTS, analizuje niektóre typy plików innych niż HTML. Jest przeznaczony dla pojedynczych witryn (nie całej sieci).

Nutch/Lucene jest prawie na pewno bardziej wytrzymałym/komercyjnym rozwiązaniem - ale nie spojrzałem na ich kod. Nie jesteś pewien, co chcesz osiągnąć, ale czy widziałeś również Microsoft Search Server Express?

Nota prawna: Jestem autorem Searcharoo; po prostu oferuję to tutaj jako opcję.

4

Crawler4j to robot indeksujący open source, który zapewnia prosty interfejs do przeszukiwania sieci. Możesz skonfigurować wielowątkowego robota sieciowego w ciągu 5 minut.

Można ustawić własny filtr, aby odwiedzać strony lub nie (adresy URL) i określać operacje dla każdej przeszukiwanej strony zgodnie z logiką.

Niektóre powody, dla których należy wybrać crawler4j;

  1. Struktura wielowątkowy,
  2. można ustawić głębokość do przeszukania,
  3. Jest Javie i open source,
  4. sterowania redundantne łącza (URL),
  5. Można ustaw liczbę stron do przeszukiwania,
  6. Możesz ustawić rozmiar strony, która ma zostać przeszukana,
  7. Wystarczająca dokumentacja
+0

Kod Google nie działa. Zamiast tego użyj Github: https://github.com/yasserg/crawler4j – Green