Używam PySpark do klasycznego zadania ETL (ładuję zbiór danych, przetwarzam go, zapisuję) i chcę zapisać moją ramkę danych jako pliki/katalog partycjonowany przez "wirtualną" kolumnę ; co mam na myśli przez "wirtualny" jest to, że mam kolumnę Znacznik czasu, który jest ciągiem zawierającym datę zakodowaną w ISO 8601, i chciałbym podzielić go na rok/miesiąc/dzień; ale w rzeczywistości nie mam kolumny Data, Miesiąc lub Dzień w DataFrame; Mam ten znacznik czasu, z którego mogę wyprowadzić te kolumny, ale nie chcę, aby moje pozycje wynikowe miały jedną z tych kolumn serializowaną.Spark: zapisz DataFrame podzieloną na partycje przez "wirtualną" kolumnę
Struktura plików wynikające z zapisaniem DataFrame na dysku powinna wyglądać następująco:
/
year=2016/
month=01/
day=01/
part-****.gz
Czy istnieje sposób, aby zrobić to, co chcę z Spark/Pyspark?
Jestem nowy dla Pythona. Czy istnieje sposób, aby to zrobić bez posiadania roku =, miesiąca = i dnia = w ścieżce? Rozumiem większość z tego – deanw