Kiedykolwiek ognia zapytanie jak select * from nazwa_tabeli, Hive odczytuje plik danych i pobiera wszystkie dane bez jakiegokolwiek agregację (min/max/liczyć itd.). Będzie wywoływać zadanie FetchTask, a nie mapreduce.
Jest to również technika optymalizacji w gałęzi. Właściwość właściwość hive.fetch.task.conversion (tj. Zadanie FETCH) minimalizuje opóźnienie mapy - zmniejsza obciążenie.
To jak czytamy plik Hadoop: Hadoop fs -cat filename
Ale jeśli używamy wybierz colNames z nazwa_tabeli, wymaga to mapa-zmniejszenie zadanie, gdyż musi wyodrębnić "kolumna" z każdego wiersza, parsując go z pliku, który ładuje.
ale dla dużego pliku musi on odczytywać ze wszystkich węzłów równolegle. Hive robi to bez MR? – ernesto