(Nawet bardziej podstawowe niż Difference between Pig and Hive? Why have both?)Używanie Pig/Hive do przetwarzania danych zamiast bezpośredniej mapy Java zmniejsza kod?
Mam rurociągu przetwarzania danych napisany w kilka Java map-zmniejszenie zadania ponad Hadoop (mój własny kod niestandardowy, pochodzące z Mapper Hadoop i Reducer). Jest to seria podstawowych operacji, takich jak join, inverse, sort i group by. Mój kod jest zaangażowany i niezbyt ogólny.
Jakie są plusy i minusy kontynuowania tego podejścia wymagającego wprawdzie rozwojowego vs. migracja wszystkiego do Pig/Hive z kilkoma UDF? jakich zadań nie będę mógł wykonać? czy będę miał pogorszenie wydajności (pracując z setkami TB)? czy utracę możliwość modyfikowania i debugowania kodu podczas utrzymywania? czy będę w stanie przetworzyć część zadań jako Java map-zmniejszyć i użyć ich input-output z moimi zadaniami Pig/Hive?
(Pracuję na świni na Twitterze): liczba 110-150% jest nieco arbitralna. Często Pig będzie znacznie szybszy niż twój kod, ponieważ ma wiele optymalizacji. Zasadniczo przekłada on rzeczy na MR, więc nie może być szybszy niż MR. Ale prosty kod od początkującego do pośredniego często przegrywa z Pigem. – SquareCog
Thnx za wgląd. –