mrjob

6Ciepło

1Odpowiedz

W jaki sposób określić plik wejściowy dla runner z Python?

Piszę skrypt zewnętrzny, aby uruchomić zadanie mapreduce za pośrednictwem modułu Python mrjob na moim laptopie (nie w Amazon Elastic Compute Cloud ani w żadnym dużym klastrze). Przeczytałem z mrjob do

5Ciepło

1Odpowiedz

Jak mogę iteracyjnie przetworzyć wszystkie pliki w jednym katalogu używając mrjob

Używam mrjob do przetwarzania partii plików i uzyskania statystyk. Wiem, że mogę uruchomić zadanie mapreduce na pojedynczym pliku, podobnie jak python count.py <some_input_file> output Ale jak mogę

6Ciepło

2Odpowiedz

Jak uzyskać nazwę pliku wejściowego w MRjob

Piszę funkcję mapy przy użyciu mrjob. Moje dane wejściowe będą pochodzić z plików w katalogu na HDFS. Nazwy plików zawierają małą, ale istotną informację o kawałku, której nie ma w plikach. Czy istnie