Mam plik 17,7GB na S3. Został wygenerowany jako wynik zapytania Hive i nie jest skompresowany.Kompresuj plik na S3
wiem, że przez ściskanie go, to będzie około 2.2GB (gzip). Jak mogę pobrać ten plik lokalnie tak szybko, jak to możliwe, gdy transfer jest wąskim gardłem (250kB/s).
nie znalazłem żadnego prostego sposobu na skompresować plik na S3 lub włączyć kompresję na przesunięcie s3cmd, boto lub pokrewnych narzędzi.
Czy możesz ponownie wygenerować ten plik, ponownie uruchamiając zapytanie o Hive? Jeśli tak, radziłbym włączyć kompresję wyjściową dla twojego zapytania Hive. –
@CharlesMenguy: Tak naprawdę zrobiłem to po raz pierwszy (chyba). Jednak w instrukcji było 'order by', co miało wpływ na wynik. Zwykle otrzymywałbym plik dla każdego zadania mapowego, ale zamiast tego dostałem pojedynczy plik ze skrótu, który zakładam, gdzie dokonano zamówienia. –
W jaki sposób włączono kompresję wyjściową w zapytaniu? Myślę, że powinieneś być w stanie skompresować dane wyjściowe prawie każdego zapytania Hive niezależnie od tego, czy istnieje 'order by', czy nie. Zakładam, że piszesz do S3, wykonując 'insert overwrite directory 's3n: // ...'', prawda? –