Potrzebuję wykonać kilka ciężkich obliczeń uczenia maszynowego. Mam niewielką liczbę urządzeń bezczynnych w sieci LAN. Ile maszyn potrzebowałbym, aby rozproszenie moich obliczeń za pomocą hadoop/mapreduce/mahout było znacznie szybsze niż działanie na pojedynczym komputerze bez tych rozproszonych frameworków? Jest to praktyczna kwestia obciążenia obliczeniowego w stosunku do zysków, ponieważ zakładam, że dystrybucja między tylko 2 maszynami byłaby gorsza niż nie dystrybucja i po prostu działanie na pojedynczej maszynie (tylko ze względu na cały narzut związany z dystrybucją obliczeń).W praktyce, ile maszyn potrzeba, aby Hadoop/MapReduce/Mahout przyspieszyło obliczenia, które można zrównoleglić?
Uwaga techniczna: Niektóre z ciężkich obliczeń są bardzo możliwe do zrównoleglenia. Wszystkie są tak długo, jak każda maszyna ma własną kopię surowych danych.
Jak długi jest kawałek sznurka? –
@ Shaggy Frog, Jeff Foster. Przepraszam, początkowo nie byłam bardziej przejrzysta. Pytanie nie brzmiało: "O ile szybciej to może pójść", to "ile maszyn potrzebuję, aby było o wiele szybsze, a nie wolniejsze lub po prostu równe". Oznacza to, że chodziło o koszt obliczeniowy uruchamiania hadoop, map reduction, mahout. Moja wina, że nie jest bardziej zrozumiała. –