Jestem początkującym, próbującym zrozumieć, jak możemy ponownie zapisać proces wsadowy ETL w Google Dataflow. Czytałem niektóre dokumenty, uruchom kilka przykładów.Kompleksowe dołączanie do przepływu danych Google
Proponuję, aby nowy proces ETL był sterowany przez zdarzenia biznesowe (np. Będą one wyzwalać proces ETL dla tej konkretnej jednostki biznesowej. Proces ETL wydobywa zbiory danych z systemów źródłowych, a następnie przekaże te wyniki (PCollections) na następny etap przetwarzania. Etapy przetwarzania obejmowałyby różne rodzaje połączeń (w tym połączenia kartezjańskie i inne niż kluczowe, na przykład pasmo dat).
więc kilka pytań tutaj:
(1) jest podejście, że jestem proponuje ważny & wydajny? Gdyby nie to, co byłoby lepsze, nie widziałem żadnych prezentacji złożonych procesów ETL w świecie rzeczywistym przy użyciu Google Dataflow, tylko proste scenariusze.
Czy istnieją produkty ETL "wyższego poziomu", które są lepiej dopasowane? Przez jakiś czas obserwowałem Spark i Flink.
Nasz obecny ETL jest umiarkowanie złożony, chociaż istnieje tylko około 30 tabel podstawowych (klasyczne wymiary i fakty EDW) oraz ~ 1000 kroków transformacji. Dane źródłowe są złożone (około 150 tabel Oracle).
(2) Złożone nie-kluczowe połączenia, w jaki sposób będą one obsługiwane?
Jestem oczywiście zainteresowana przepływem danych Google, ponieważ jest to przede wszystkim API, a możliwości przetwarzania równoległego wydają się bardzo dobre (jesteśmy proszeni o przejście z partii na noc do przetwarzania przyrostowego).
Dobrze działający przykład Dataflow dla tego przypadku użycia naprawdę popchnie adopcję do przodu!
Dzięki, Mike S