Jak mogę wyeksportować DataFrame Sparka do pliku csv za pomocą Scala?Jak wyeksportować DataFrame do csv w Scala?
7
A
Odpowiedz
8
Najprostszym i najlepszym sposobem, aby to zrobić, jest użycie biblioteki spark-csv
. Możesz sprawdzić dokumentację w podanym linku, a here
jest przykładowym sposobem ładowania i zapisywania danych z/do DataFrame.
Code (Spark 1.4+):
dataFrame.write.format("com.databricks.spark.csv").save("myFile.csv")
Edit:
Spark tworzy częściowe pliki podczas zapisywania danych csv, jeśli chcesz połączyć się z części plików w pojedynczy CSV można znaleźć następujące:
1
Powyższe rozwiązanie powoduje eksportowanie pliku csv jako wielu partycji. Znalazłem inne rozwiązanie zero323 w tym stackoverflow page, które eksportuje ramkę danych do jednego pliku CSV.
df.coalesce(1)
.write.format("com.databricks.spark.csv")
.option("header", "true")
.save("/your/location/mydata.csv")