Oto kroki do obecnego procesu:jak skutecznie przenieść dane z Kafki do tabeli Impala?
- Flafka zapisuje logi do „strefy lądowania” na HDFS.
- Zlecenie, zaplanowane przez Oozie, kopiuje kompletne pliki ze strefy lądowania do strefy postoju.
- Dane dotyczące przemieszczania są "schematem" według tabeli gałęzi, która wykorzystuje obszar przemieszczania jako lokalizację.
- Zapisy z tabeli pomostowej są dodawane do stałej tabeli Ula (np.
insert into permanent_table select * from staging_table
). - Dane z tabeli Hive są dostępne w Impala, wykonując
refresh permanent_table
w Impala.
patrzę w procesie I został zbudowany i „pachnie” zła: jest zbyt wiele pośrednich etapów, które upośledzają przepływ danych.
Około 20 miesięcy temu widziałem demo, w którym przesyłane były dane z rury Amazon Kinesis, i było możliwe do przeprowadzenia w niemal rzeczywistym czasie przez Impalę. Nie sądzę, żeby zrobili coś tak brzydkiego/zawiłego. Czy istnieje skuteczniejszy sposób przesyłania danych z Kafki do Impala (być może konsumenta Kafki, który może serializować do Parkietu)?
Wyobrażam sobie, że "przesyłanie strumieniowe danych do SQL o niskim opóźnieniu" musi być dość powszechnym przypadkiem użycia, dlatego chciałbym wiedzieć, jak inni rozwiązali ten problem.
[tutaj] (http://www.svds.com/flexible-data-architecture-with-spark-cassandra- i-impala /) jest alternatywną architekturą, która wydaje się mieć mniej przeskoków i może być względnie szybsza. – vmachan
Czy to pomaga? https://blog.cloudera.com/blog/2015/11/how-to-ingest-and-query-fast-data-with-impala-without-kudu/ –