2015-05-07 16 views
5

Właśnie zacząłem uczyć się Big Data, w tym czasie pracuję nad Flume. Typowy przykład, z jakim się spotkałem, to przetwarzanie tweetów (przykład z Cloudera) za pomocą Java.Używanie lokalnego systemu plików jako źródła Flume

Tylko do celów testowania i symulacji, czy mogę używać mojego lokalnego systemu plików jako źródła Flume? w szczególności niektóre pliki Excel lub CSV? Czy muszę też używać kodu Java, oprócz pliku konfiguracyjnego Flume, podobnie jak w przypadku wyodrębniania Twittera?

Czy to źródło będzie sterowane zdarzeniami, czy też będzie można je pollować?

Dzięki za twój wkład.

+0

Zakładam, że można utworzyć niestandardowe źródło flume. Nie wiem, czy już istnieje dla lokalnego systemu plików – fdsa

Odpowiedz

4

Zakładam, że korzystasz z piaskownicy cloudera i mówisz o umieszczeniu pliku w piaskownicy lokalnym dla agenta flume, który planujesz rozpocząć. Środek koryta zawiera:

Źródło Kanał Sink

Powinny siedzieć lokalny do agenta koryt. Lista dostępnych źródeł flume znajduje się w instrukcji użytkownika: https://flume.apache.org/FlumeUserGuide.html. Możesz użyć źródła Exec, jeśli chcesz tylko przesyłać strumieniowo dane z pliku za pomocą komendy tail lub cat. Można również użyć katalogu buforowania Źródło będzie obserwować określony katalog dla nowych plików i będzie analizować zdarzenia z nowych plików w ich wyświetlaniu. Dobrze przeczytać instrukcję obsługi. Zawiera wszystko, czego potrzebujesz.