Struktury strumieniowe na górze Hadoop, które obsługują ORC, formaty plików parkietowych

Czy strumieniowanie Hadoop obsługuje nowe, kolumnowe formaty przechowywania, takie jak ORC i parkiet, czy też istnieją frameworki na platformie Hadoop, które umożliwiają czytanie takich formatów?Struktury strumieniowe na górze Hadoop, które obsługują ORC, formaty plików parkietowych

Źródło

2014-04-03 viper

Możesz użyć HCatalog, aby odczytać plik ORC. https://cwiki.apache.org/confluence/display/Hive/HCatalog+UsingHCat

Dostarcza abstrakcji do odczytu plików tekstowych, tekstowych, sekwencyjnych, RC. Nie jestem pewien, czy tam jest poparcie parkietu. Niemniej jednak, jeśli nie brzmi to rozsądnie, możesz użyć czytników rekordów ORC w bazie kodu Hive, aby odczytać pliki ORC (ORCInputFormat, ORCOutputFormat).

Źródło

2014-06-24 10:59:07 user3614890

Raczej stare wiadomości, ale jakiś czas temu walczyłem z tym. Nie znalazłem żadnego rozwiązania, dlatego stworzyłem zestaw formatów wejścia/wyjścia, które konwertują pliki avro i parkiet na/z czystego tekstu i json. Można go znaleźć pod adresem http://github.com/whale2/iow-hadoop-streaming. Nie ma obsługi ORC, ale Avro i Parquet są obsługiwane. Mam nadzieję, że to pomoże.

Źródło

2014-09-28 11:15:15 user3134802

Struktury strumieniowe na górze Hadoop, które obsługują ORC, formaty plików parkietowych

Odpowiedz

Powiązane problemy