Czy strumieniowanie Hadoop obsługuje nowe, kolumnowe formaty przechowywania, takie jak ORC i parkiet, czy też istnieją frameworki na platformie Hadoop, które umożliwiają czytanie takich formatów?Struktury strumieniowe na górze Hadoop, które obsługują ORC, formaty plików parkietowych
Odpowiedz
Możesz użyć HCatalog, aby odczytać plik ORC. https://cwiki.apache.org/confluence/display/Hive/HCatalog+UsingHCat
Dostarcza abstrakcji do odczytu plików tekstowych, tekstowych, sekwencyjnych, RC. Nie jestem pewien, czy tam jest poparcie parkietu. Niemniej jednak, jeśli nie brzmi to rozsądnie, możesz użyć czytników rekordów ORC w bazie kodu Hive, aby odczytać pliki ORC (ORCInputFormat, ORCOutputFormat).
Raczej stare wiadomości, ale jakiś czas temu walczyłem z tym. Nie znalazłem żadnego rozwiązania, dlatego stworzyłem zestaw formatów wejścia/wyjścia, które konwertują pliki avro i parkiet na/z czystego tekstu i json. Można go znaleźć pod adresem http://github.com/whale2/iow-hadoop-streaming. Nie ma obsługi ORC, ale Avro i Parquet są obsługiwane. Mam nadzieję, że to pomoże.