Piszę skrypt zewnętrzny, aby uruchomić zadanie mapreduce za pośrednictwem modułu Python mrjob na moim laptopie (nie w Amazon Elastic Compute Cloud ani w żadnym dużym klastrze). Przeczytałem z mrjob do
Używam mrjob do przetwarzania partii plików i uzyskania statystyk. Wiem, że mogę uruchomić zadanie mapreduce na pojedynczym pliku, podobnie jak python count.py <some_input_file> output
Ale jak mogę
Piszę funkcję mapy przy użyciu mrjob. Moje dane wejściowe będą pochodzić z plików w katalogu na HDFS. Nazwy plików zawierają małą, ale istotną informację o kawałku, której nie ma w plikach. Czy istnie