Potrzebuję opracować pionową wyszukiwarkę jako część strony internetowej. Dane do wyszukiwarki pochodzą z witryn o określonej kategorii. W tym celu potrzebuję mieć robot indeksujący, który przeszukuje kilka (kilkaset) witryn (w określonej kategorii biznesowej) i wyodrębnia treść oraz adresy URL produktów i usług. Inne typy stron mogą być nieistotne. Większość stron jest mała lub mała (najwyżej kilkaset stron). Produkty mają od 10 do 30 atrybutów.Wykonywanie robota i skrobaka do wyszukiwania w pionie
Wszelkie pomysły, jak napisać taki robot i wyciąg. Napisałem kilka robotów indeksujących i ekstraktorów przy użyciu zwykłych bibliotek ruby, ale nie w pełni rozwiniętą wyszukiwarkę. Domyślam się, że robot od czasu do czasu budzi się i pobiera strony ze stron internetowych. Zwykle zachowa się uprzejme zachowanie, takie jak sprawdzanie reguł wykluczania robotów. Podczas gdy ekstraktor treści może aktualizować bazę danych po przeczytaniu stron. Jak zsynchronizować przeszukiwacz i ekstraktor? Jak mocno powinny być zintegrowane?
Czy atrybuty ze wszystkich witryn będą przechowywane w tej samej lokalizacji? Na przykład masz ponad 30 kolumn w tabeli bazy danych. – BenMaddox