parquet

5Ciepło

2Odpowiedz

SparkSQL - odczytać pliku parkiet bezpośrednio

Jestem migracji z Impala SparkSQL, stosując następujący kod do odczytu tabeli: my_data = sqlContext.read.parquet('hdfs://my_hdfs_path/my_db.db/my_table') Jak mogę powołać SparkSQL powyżej, więc może

12Ciepło

1Odpowiedz

Schemat ewolucji w formacie parkietowym

Obecnie używamy formatu danych Avro w produkcji. Z N dobrych punktów Avro wiemy, że jest dobry w ewolucji schematu. Teraz oceniamy Format parkietowy ze względu na jego wydajność podczas odczytywania l

7Ciepło

1Odpowiedz

Spark SQL: Dlaczego dwa zadania dla jednego zapytania?

Eksperyment Próbowałem następujący fragment na Spark 1.6.1. val soDF = sqlContext.read.parquet("/batchPoC/saleOrder") # This has 45 files soDF.registerTempTable("so") sqlContext.sql("select dpHour,

5Ciepło

2Odpowiedz

Spark SQL - różnica między formatami kompresji gzip vs snappy vs lzo

Próbuję użyć Spark SQL do napisania pliku parquet. Domyślnie Spark SQL obsługuje gzip, ale obsługuje również inne formaty kompresji, takie jak snappy i lzo. Jaka jest różnica między tymi formatami kom

5Ciepło

1Odpowiedz

Dlaczego wydajność zapytania różni się w kolumnach zagnieżdżonych w Spark SQL?

piszę niektóre dane w formacie parkietu przy użyciu Spark SQL gdzie powstały schemat wygląda tak: root |-- stateLevel: struct (nullable = true) | |-- count1: integer (nullable = false) | |-- count2

12Ciepło

2Odpowiedz

Jak podzielić i napisać DataFrame w Spark bez usuwania partycji bez nowych danych?

Próbuję zapisać DataFrame do HDFS w formacie parkietu przy użyciu DataFrameWriter, podzielona przez trzy wartości kolumn, tak: dataFrame.write.mode(SaveMode.Overwrite).partitionBy("eventdate", "hour",

5Ciepło

1Odpowiedz

Jak ustawić spark.sql.parquet.output.committer.class w pyspark

Próbuję ustawić spark.sql.parquet.output.committer.class i nic, co robię, nie wydaje się, aby ustawienie zadziałało. Próbuję mieć wiele wątków zapisu do tego samego folderu wyjściowego, który będzie d

5Ciepło

1Odpowiedz

Wsparcie dla parkietu jako format wejścia/wyjścia podczas pracy z S3

Widziałem kilka pytań opisujących problemy podczas pracy z S3 w Spark: Spark jobs finishes but application takes time to close spark-1.4.1 saveAsTextFile to S3 is very slow on emr-4.0.0 Writing Spark

13Ciepło

1Odpowiedz

Generowanie metadanych dla plików parkietu

Mam tabelę ula, która jest zbudowana na obciążeniu zewnętrznych plików parkietu. Pliki Paruqet powinny być generowane przez zadanie iskry, ale z powodu ustawienia flagi metadanych na wartość false, ni

18Ciepło

1Odpowiedz

Dlaczego Apache Spark odczytuje niepotrzebne kolumny parkietu w strukturach zagnieżdżonych?

Mój zespół buduje proces ETL, który ładuje nieprzetworzone pliki tekstowe do "jeziora danych" opartego na parkiecie za pomocą Sparka. Jedną z obietnic magazynu kolumn Parquet jest to, że zapytanie odc