Kompresuj plik na S3

Mam plik 17,7GB na S3. Został wygenerowany jako wynik zapytania Hive i nie jest skompresowany.Kompresuj plik na S3

wiem, że przez ściskanie go, to będzie około 2.2GB (gzip). Jak mogę pobrać ten plik lokalnie tak szybko, jak to możliwe, gdy transfer jest wąskim gardłem (250kB/s).

nie znalazłem żadnego prostego sposobu na skompresować plik na S3 lub włączyć kompresję na przesunięcie s3cmd, boto lub pokrewnych narzędzi.

Źródło

2013-01-24 Matt Joiner

Czy możesz ponownie wygenerować ten plik, ponownie uruchamiając zapytanie o Hive? Jeśli tak, radziłbym włączyć kompresję wyjściową dla twojego zapytania Hive. –

@CharlesMenguy: Tak naprawdę zrobiłem to po raz pierwszy (chyba). Jednak w instrukcji było 'order by', co miało wpływ na wynik. Zwykle otrzymywałbym plik dla każdego zadania mapowego, ale zamiast tego dostałem pojedynczy plik ze skrótu, który zakładam, gdzie dokonano zamówienia. –

W jaki sposób włączono kompresję wyjściową w zapytaniu? Myślę, że powinieneś być w stanie skompresować dane wyjściowe prawie każdego zapytania Hive niezależnie od tego, czy istnieje 'order by', czy nie. Zakładam, że piszesz do S3, wykonując 'insert overwrite directory 's3n: // ...'', prawda? –

S3 nie obsługuje kompresję strumienia ani nie jest to możliwe, aby skompresować plik przekazany zdalnie.

Jeśli jest to proces jednorazowy Proponuję pobierając go do maszyny EC2 w tym samym regionie, kompresować go tam, a następnie przesłać do swojego przeznaczenia.

http://docs.aws.amazon.com/AWSEC2/latest/UserGuide/EC2_GetStarted.html

Jeśli trzeba to częściej

Serving gzipped CSS and JavaScript from Amazon CloudFront via S3

Źródło

2013-01-24 06:35:26

Późne odpowiedź, ale znalazłem to działa idealnie.

aws s3 sync s3://your-pics . 

for i in `find | grep -E "\.jpg$|\.jpg$"`; do gzip "$i" ; echo $i; done 

aws s3 sync . s3://your-pics --content-encoding gzip --dryrun

ten pobierze wszystkie pliki w s3 wiadra do maszyny (lub instancji EC2) kompresuje plików graficznych i przesłać je z powrotem do S3 wiadra. Sprawdź dane przed usunięciem flagi Dryrun.

Źródło

2017-12-04 13:21:59

Odpowiedz

Powiązane problemy