używam następny kod:Jak mogę scalić iskrzenie wyników plików bez ponownej partycji i copyMerge?
csv.saveAsTextFile(pathToResults, classOf[GzipCodec])
pathToResults katalog ma wiele plików, takich jak część-0000, cz-0001 itp mogę używać FileUtil.copyMerge(), ale jest to bardzo powolny, to pobierz wszystkie pliki na program sterownika, a następnie prześlij je w trybie hadoop. Ale FileUtil.copyMerge() szybciej niż:
csv.repartition(1).saveAsTextFile(pathToResults, classOf[GzipCodec])
Jak mogę połączyć wyniki zapłonowe plików bez podziale i FileUtil.copyMerge()?