Searcharoo.NET zawiera pająk, który przeszukuje i indeksuje zawartość oraz wyszukiwarkę, która go używa. Powinieneś być w stanie odnaleźć kod Searcharoo.Indexer.EXE, aby uwięzić zawartość po jej pobraniu i dodać z niej swój niestandardowy kod ...
Jest to bardzo podstawowe (zawiera cały kod źródłowy, i jest objaśniony w sześciu artykułach CodeProject, z których najnowszy jest tutaj Searcharoo v6): pająk śledzi linki, mapy obrazów, obrazy, stosuje się do dyrektyw ROBOTS, analizuje niektóre typy plików innych niż HTML. Jest przeznaczony dla pojedynczych witryn (nie całej sieci).
Nutch/Lucene jest prawie na pewno bardziej wytrzymałym/komercyjnym rozwiązaniem - ale nie spojrzałem na ich kod. Nie jesteś pewien, co chcesz osiągnąć, ale czy widziałeś również Microsoft Search Server Express?
Nota prawna: Jestem autorem Searcharoo; po prostu oferuję to tutaj jako opcję.
Możesz użyć crawler4j, jeśli używasz java. Oto przewodnik krok po kroku, jak skonfigurować robota crawler4j wraz z fragmentem kodu, aby pobrać obrazy, linki i wiadomości e-mail z tym łączem - http://www.buggybread.com/2013/01/create-your-own-email-and- image.html –