Co to jest dobre narzędzie przeszukiwacza sieci

Potrzebuję zindeksować wiele stron internetowych, jakie są dobre narzędzia webcrawler? Jestem po czymś, z czym może porozmawiać .NET, ale to nie jest showstopper.Co to jest dobre narzędzie przeszukiwacza sieci

To, czego naprawdę potrzebuję, to coś, co mogę dać URL strony do & będzie śledzić każdy link i przechowywać zawartość do indeksowania.

Źródło

2008-10-07 Glenn Slaven

Możesz użyć crawler4j, jeśli używasz java. Oto przewodnik krok po kroku, jak skonfigurować robota crawler4j wraz z fragmentem kodu, aby pobrać obrazy, linki i wiadomości e-mail z tym łączem - http://www.buggybread.com/2013/01/create-your-own-email-and- image.html –

HTTrack - http://www.httrack.com/ - to bardzo dobra kopiarka WWW. Działa całkiem nieźle. Używam go przez długi czas.

Nutch jest robotem sieciowym (robotem indeksującym jest program, którego szukasz) - http://lucene.apache.org/nutch/ - który wykorzystuje najlepsze narzędzie wyszukiwania lucene.

Źródło

2008-10-07 00:45:59 anjanb

Sphider jest całkiem niezła. To PHP, ale może być pomocna.

Źródło

2008-10-07 00:42:40

Jeszcze nie używałem tego, ale this wygląda interesująco. Autor napisał to od początku i opublikował, jak to zrobił. Kod do niego jest również dostępny do pobrania.

Źródło

2008-10-07 00:52:32

Searcharoo.NET zawiera pająk, który przeszukuje i indeksuje zawartość oraz wyszukiwarkę, która go używa. Powinieneś być w stanie odnaleźć kod Searcharoo.Indexer.EXE, aby uwięzić zawartość po jej pobraniu i dodać z niej swój niestandardowy kod ...

Jest to bardzo podstawowe (zawiera cały kod źródłowy, i jest objaśniony w sześciu artykułach CodeProject, z których najnowszy jest tutaj Searcharoo v6): pająk śledzi linki, mapy obrazów, obrazy, stosuje się do dyrektyw ROBOTS, analizuje niektóre typy plików innych niż HTML. Jest przeznaczony dla pojedynczych witryn (nie całej sieci).

Nutch/Lucene jest prawie na pewno bardziej wytrzymałym/komercyjnym rozwiązaniem - ale nie spojrzałem na ich kod. Nie jesteś pewien, co chcesz osiągnąć, ale czy widziałeś również Microsoft Search Server Express?

Nota prawna: Jestem autorem Searcharoo; po prostu oferuję to tutaj jako opcję.

Źródło

2008-10-07 01:13:31 Conceptdev

Używam Mozenda's Web Scraping software. Możesz łatwo zaindeksować wszystkie łącza i pobrać wszystkie potrzebne informacje, a do tego jest to wspaniałe oprogramowanie .

Źródło

2010-05-25 01:05:41 Amber

Crawler4j to robot indeksujący open source, który zapewnia prosty interfejs do przeszukiwania sieci. Możesz skonfigurować wielowątkowego robota sieciowego w ciągu 5 minut.

Można ustawić własny filtr, aby odwiedzać strony lub nie (adresy URL) i określać operacje dla każdej przeszukiwanej strony zgodnie z logiką.

Niektóre powody, dla których należy wybrać crawler4j;

Struktura wielowątkowy,
można ustawić głębokość do przeszukania,
Jest Javie i open source,
sterowania redundantne łącza (URL),
Można ustaw liczbę stron do przeszukiwania,
Możesz ustawić rozmiar strony, która ma zostać przeszukana,
Wystarczająca dokumentacja

Źródło

2012-11-18 01:07:34 cuneytykaya

Kod Google nie działa. Zamiast tego użyj Github: https://github.com/yasserg/crawler4j – Green

Co to jest dobre narzędzie przeszukiwacza sieci

Odpowiedz

Powiązane problemy