W jaki sposób Hive decyduje, kiedy korzystać z mapy, a kiedy nie?

Jako prosty przykładW jaki sposób Hive decyduje, kiedy korzystać z mapy, a kiedy nie?

select * from tablename;

NIE kopać mapie zmniejszyć, natomiast

select count(*) from tablename;

robi. Jaka jest ogólna zasada używana do decydowania, kiedy korzystać z mapy zmniejsz (przez ul)?

Źródło

2011-09-19 Lazer

Ogólnie rzecz biorąc, dowolna agregacja, taka jak min/max/count, wymaga zadania MapReduce. To prawdopodobnie nie wyjaśni ci wszystkiego.

Hive, w stylu wielu RDBMS, ma słowo kluczowe EXPLAIN, które objaśni, w jaki sposób zapytanie Hive zostanie przetłumaczone na zadania MapReduce. Spróbuj uruchomić objaśnienie obu przykładowych zapytań i zobacz, co próbuje zrobić za kulisami.

Źródło

2011-09-19 04:41:15

wybierz * z nazwy;

Po prostu odczytuje surowe dane z plików w HDFS, więc jest znacznie szybszy bez MapReduce.

Źródło

2011-09-20 17:47:52 wlk

ale dla dużego pliku musi on odczytywać ze wszystkich węzłów równolegle. Hive robi to bez MR? – ernesto

-1

Jest to technika optymalizacji, zadanie właściwości może (FETCH) hive.fetch.task.conversion zminimalizować opóźnienie narzutu mapreduce.

Podczas wykonywania zapytań SELECT, LIMIT, FETCH ta właściwość pomija funkcję mapreduce i używa zadania FETCH.

Ta właściwość może mieć 3 wartości - none, minimal (wartość domyślna) i more.

Źródło

2016-04-27 07:17:40 user6260103

Kiedykolwiek ognia zapytanie jak select * from nazwa_tabeli, Hive odczytuje plik danych i pobiera wszystkie dane bez jakiegokolwiek agregację (min/max/liczyć itd.). Będzie wywoływać zadanie FetchTask, a nie mapreduce.

Jest to również technika optymalizacji w gałęzi. Właściwość właściwość hive.fetch.task.conversion (tj. Zadanie FETCH) minimalizuje opóźnienie mapy - zmniejsza obciążenie.

To jak czytamy plik Hadoop: Hadoop fs -cat filename

Ale jeśli używamy wybierz colNames z nazwa_tabeli, wymaga to mapa-zmniejszenie zadanie, gdyż musi wyodrębnić "kolumna" z każdego wiersza, parsując go z pliku, który ładuje.

Źródło

2018-01-11 17:31:39

W jaki sposób Hive decyduje, kiedy korzystać z mapy, a kiedy nie?

Odpowiedz

Powiązane problemy