Nutch to najlepsze, co możesz zrobić, jeśli chodzi o darmowego robota. Jest on zbudowany w oparciu o koncepcję Lucene (w skali skalowanej przez firmę) i jest obsługiwany przez tylny koniec Hadoop przy użyciu MapReduce (podobnej do Google) w celu wysyłania zapytań na dużą skalę. Świetne produkty! Obecnie czytam wszystko o Hadoopie w nowym (jeszcze nie opublikowanym) Hadoop in Action od manning. Jeśli pójdziesz tą trasą, proponuję dostać się do zespołu ds. Technicznych recenzji, aby otrzymać wczesną kopię tego tytułu!
Są to wszystkie oparte Java. Jeśli jesteś facetem .net (jak ja!), Możesz być bardziej zainteresowany Lucene.NET, Nutch.NET i Hadoop.NET, które są wszystkie klasy według klasy i api przez porty API do C#.
http://stackoverflow.com/questions/176820/whats-a-good-web-crawler-tool –
@LFSR Consulting. Są one dla różnych celów ... – Zanoni