Próbuję zrozumieć fizyczne plany na iskrze, ale nie rozumiem niektórych części, ponieważ wyglądają one inaczej niż tradycyjne rdbms. Na przykład w poniższym planie jest plan dotyczący zapytania nad tabelą ula. Zapytanie to:Zrozumienie fizycznego planu iskrzenia
select
l_returnflag,
l_linestatus,
sum(l_quantity) as sum_qty,
sum(l_extendedprice) as sum_base_price,
sum(l_extendedprice * (1 - l_discount)) as sum_disc_price,
sum(l_extendedprice * (1 - l_discount) * (1 + l_tax)) as sum_charge,
avg(l_quantity) as avg_qty,
avg(l_extendedprice) as avg_price,
avg(l_discount) as avg_disc,
count(*) as count_order
from
lineitem
where
l_shipdate <= '1998-09-16'
group by
l_returnflag,
l_linestatus
order by
l_returnflag,
l_linestatus;
== Physical Plan ==
Sort [l_returnflag#35 ASC,l_linestatus#36 ASC], true, 0
+- ConvertToUnsafe
+- Exchange rangepartitioning(l_returnflag#35 ASC,l_linestatus#36 ASC,200), None
+- ConvertToSafe
+- TungstenAggregate(key=[l_returnflag#35,l_linestatus#36], functions=[(sum(l_quantity#31),mode=Final,isDistinct=false),(sum(l_extendedpr#32),mode=Final,isDistinct=false),(sum((l_extendedprice#32 * (1.0 - l_discount#33))),mode=Final,isDistinct=false),(sum(((l_extendedprice#32 * (1.0l_discount#33)) * (1.0 + l_tax#34))),mode=Final,isDistinct=false),(avg(l_quantity#31),mode=Final,isDistinct=false),(avg(l_extendedprice#32),mode=Fl,isDistinct=false),(avg(l_discount#33),mode=Final,isDistinct=false),(count(1),mode=Final,isDistinct=false)], output=[l_returnflag#35,l_linestatus,sum_qty#0,sum_base_price#1,sum_disc_price#2,sum_charge#3,avg_qty#4,avg_price#5,avg_disc#6,count_order#7L])
+- TungstenExchange hashpartitioning(l_returnflag#35,l_linestatus#36,200), None
+- TungstenAggregate(key=[l_returnflag#35,l_linestatus#36], functions=[(sum(l_quantity#31),mode=Partial,isDistinct=false),(sum(l_exdedprice#32),mode=Partial,isDistinct=false),(sum((l_extendedprice#32 * (1.0 - l_discount#33))),mode=Partial,isDistinct=false),(sum(((l_extendedpri32 * (1.0 - l_discount#33)) * (1.0 + l_tax#34))),mode=Partial,isDistinct=false),(avg(l_quantity#31),mode=Partial,isDistinct=false),(avg(l_extendedce#32),mode=Partial,isDistinct=false),(avg(l_discount#33),mode=Partial,isDistinct=false),(count(1),mode=Partial,isDistinct=false)], output=[l_retulag#35,l_linestatus#36,sum#64,sum#65,sum#66,sum#67,sum#68,count#69L,sum#70,count#71L,sum#72,count#73L,count#74L])
+- Project [l_discount#33,l_linestatus#36,l_tax#34,l_quantity#31,l_extendedprice#32,l_returnflag#35]
+- Filter (l_shipdate#37 <= 1998-09-16)
+- HiveTableScan [l_discount#33,l_linestatus#36,l_tax#34,l_quantity#31,l_extendedprice#32,l_shipdate#37,l_returnflag#35], astoreRelation default, lineitem, None
Na co mi zrozumienie w planie jest:
Pierwszy rozpoczyna się skanowanie tabeli Hive
Następnie filtrować za pomocą których stan
Następnie projekt, aby uzyskać kolumny, które chcemy
Następnie TungstenAggregate?
Następnie TungstenExchange?
Następnie ponownie TungstenAggregate?
Następnie ConvertToSafe?
Następnie sortuje wynik końcowy
Ale ja nie rozumiejąc kroki 4, 5, 6 i 7. Wiesz czym one są? Szukam informacji na ten temat, aby zrozumieć plan, ale nie znajduję nic konkretnego.
Dzięki za odpowiedź.Po prostu nie zrozumiałem wyraźnie tej części "# 2 z klauzuli SELECT - pole funkcji w TungstenAggregates". Jeśli potrafisz lepiej wyjaśnić, to bądź miły! – codin
Pole 'Funkcje' wyświetla wszystkie agregacje, które są wykonywane na danym etapie, podczas gdy pole' Klucz' opisuje grupowanie. jest to 'df.groupBy (* key) .agg (* funkcje)'. – zero323