Biorąc pod uwagę pracę z mapą i zredukować fazy, widzę, że folder wyjściowy zawiera pliki o nazwach "part-r-00000".Hadoop - uzyskać wyniki z plików wyjściowych po zmniejszeniu?
Czy muszę przetwarzać te pliki na poziomie aplikacji, czy muszę wykonywać iteracje dla wszystkich plików w folderze wyjściowym w naturalnej kolejności nazywania (część-r-00000, część-r-00001, część-r-00002 ...) w celu uzyskania wyników pracy?
Albo mogę użyć jakiegoś programu do odczytu plików hadoop, który pozwoli mi uzyskać "iterator" i poradzić sobie z przełączaniem plików dla mnie (gdy plik part-r-00000 jest całkowicie odczytywany, kontynuuj z pliku part-r-00001)?
Potrzebuję pobrać te pliki na inny host i przekształcić/wstawić zawartość do bazy danych. Nie mogę wykonać tej wstawki na etapie zmniejszania, ponieważ klaster nie ma żadnego dostępu do bazy danych. – jdevelop