Próbuję użyć^A jako separatora między kluczem a wartością w moich plikach wyjściowych zmniejszania. Uważam, że ustawienie config "mapred.textoutputformat.separator" jest to, co chcę i to prawidłowo przełącza separator do "":Hadoop - textouputformat.separator użyj ctrlA (^ A)
conf.set("mapred.textoutputformat.separator", ",");
Ale to nie może obsłużyć^znaku:
conf.set("mapred.textoutputformat.separator", "\u0001");
generuje ten błąd:
ERROR security.UserGroupInformation: PriviledgedActionException as:user (auth:SIMPLE) cause:org.apache.hadoop.ipc.RemoteException: java.io.IOException: java.lang.RuntimeException: org.xml.sax.SAXParseException; lineNumber: 68; columnNumber: 94; Character reference "&#
znalazłem ten bilet https://issues.apache.org/jira/browse/HADOOP-7542 i widzą tri ed, aby naprawić to, ale przywrócił poprawkę ze względu na obawy XML1.1.
W takim razie zastanawiam się, czy komuś udało się ustawić separator na^A (wydaje się dość powszechny), korzystając z łatwej pracy. Lub jeśli powinienem po prostu załatwić i użyć separatora tabulatorów.
Dzięki!
biegnę Hadoop 0.20.2-cdh3u5 na CentOS 6.2
Awans, to ważne pytanie, należy zachęcać. – Siddharth