Jestem migracji z Impala SparkSQL, stosując następujący kod do odczytu tabeli:SparkSQL - odczytać pliku parkiet bezpośrednio
my_data = sqlContext.read.parquet('hdfs://my_hdfs_path/my_db.db/my_table')
Jak mogę powołać SparkSQL powyżej, więc może powrócić coś takiego:
'select col_A, col_B from my_table'
Czy konieczne jest zbieranie (lub dobry pomysł)? Ponieważ jeśli dane są duże, nie chcemy zbierać wszystkiego do sterownika? – Edamame
to tylko przykład użycia sql. To zależy od Ciebie, w jaki sposób chcesz z niego korzystać. możesz zmienić zapytanie lub zrobić .take() również, aby uzyskać wymagane dane na temat sterownika –