Próbuję użyć Spark SQL do napisania pliku parquet
.Spark SQL - różnica między formatami kompresji gzip vs snappy vs lzo
Domyślnie Spark SQL obsługuje gzip
, ale obsługuje również inne formaty kompresji, takie jak snappy
i lzo
.
Jaka jest różnica między tymi formatami kompresji i która z nich najlepiej jest pracować z ładowaniem Hive
.
Wydaje się, że domyślnie używa Spark "żwawy", a nie "gzip". Przynajmniej to widzę na s3: pliki utworzone za pomocą łańcucha "snappy" jako część ich nazwy. – bashan
@bashan: ostatnie wersje iskry zmieniły domyślny format na snappy, do 1.6.1 widzę domyślny format kompresji parkietowej to gzip. – Shankar