Jak spłaszczyć strukturę w iskrowegowej ramce danych?

Mam dataframe o następującej strukturze:Jak spłaszczyć strukturę w iskrowegowej ramce danych?

|-- data: struct (nullable = true) 
| |-- id: long (nullable = true) 
| |-- keyNote: struct (nullable = true) 
| | |-- key: string (nullable = true) 
| | |-- note: string (nullable = true) 
| |-- details: map (nullable = true) 
| | |-- key: string 
| | |-- value: string (valueContainsNull = true)

Jak to jest możliwe, aby spłaszczyć strukturę i stworzyć nową dataframe:

 |-- id: long (nullable = true) 
    |-- keyNote: struct (nullable = true) 
    | |-- key: string (nullable = true) 
    | |-- note: string (nullable = true) 
    |-- details: map (nullable = true) 
    | |-- key: string 
    | |-- value: string (valueContainsNull = true)

Czy istnieje coś takiego jak wybuch, ale na elemencie?

Źródło

2016-08-03 djWann

Pomocne były również odpowiedzi na https://stackoverflow.com/questions/37471346/automatically-and-elegantly-flatten-dataframe-in-spark-sql. – erwaman

To powinno działać w Spark 1.6 lub nowszym:

df.select(df.col("data.*"))

lub

df.select(df.col("data.id"), df.col("data.keyNote"), df.col("data.details"))

Źródło

2016-08-03 21:33:55

Wyjątek w wątku "główny" org.apache.spark.sql.AnalysisException: Brak takiego pola struct * – djWann

, ale użycie polecenia select we wszystkich kolumnach, takich jak df.select (df.col1, df.col2, df.col3), działa, więc Przyjmuję tę odpowiedź – djWann

Po prostu edytowałem, ale to jest dziwne. Mogę użyć *. Może jakiś problem z wersją? –

Łatwym sposobem jest użycie SQL, można zbudować ciąg kwerendy SQL alias zagnieżdżone kolumn jako płaskie te .

pobrać schemat danych ramki (df.schema())
Transform schematu SQL (dla (field. Schema (Pola)()) ....
Query „val newDF = sqlContext.sql ("WYBIERZ" + sqlGenerated + "z ręki")

Przykładem Java:

https://gist.github.com/ebuildy/3de0e2855498e5358e4eed1a4f72ea48

(Preferuję sposób SQL, więc można go łatwo przetestować na Spark-shell i jest to wersja wielojęzyczna).

Źródło

2017-04-11 19:53:55

Jak spłaszczyć strukturę w iskrowegowej ramce danych?

Odpowiedz

Powiązane problemy