2015-12-17 23 views

Odpowiedz

1

Nie jest jasne, co rozumiesz przez instancje przeszukiwacza. Jeśli chcesz uruchomić skrypt indeksowania kilka razy równolegle, np. masz różne indeksowania z oddzielnymi konfiguracjami, nasionami itp., a następnie będą rywalizować o gniazda w klastrze Hadoop. Następnie sprowadzi się do liczby dostępnych szczelin map/reduktorów w twoim klastrze, która zależy od liczby niewolników.

Obsługa wielu przeszukiwań Nutch równolegle może być bardzo trudna i nieefektywna pod względem zasobów. Zamiast tego ponownie przemyśl swoją architekturę, aby wszystkie logiczne roboty indeksujące mogły działać jako jeden fizyczny model lub spójrz na StormCrawler, co powinno być lepszym rozwiązaniem.