Chciałbym analizować ciągły strumień danych (dostęp za pośrednictwem protokołu HTTP) przy użyciu podejścia MapReduce, więc zajmuję się Apache Hadoop. Niestety wygląda na to, że Hadoop spodziewa się, że rozpocznie pracę z plikiem wejściowym o stałym rozmiarze, a nie będzie w stanie przekazywać nowych danych konsumentom, gdy nadejdzie. Czy tak jest rzeczywiście, czy też czegoś brakuje? Czy istnieje inne narzędzie MapReduce, które działa z odczytanymi danymi z otwartego gniazda? Skalowalność jest tutaj problemem, więc wolałbym, aby MapReducer poradził sobie z bałaganem.Dane transmisyjne i Hadoop? (nie Hadoop Streaming)
Grałem z Cascading i udało mi się uruchomić zadanie na statycznym pliku dostępnym przez HTTP, ale to właściwie nie rozwiązuje mojego problemu. Mogłabym użyć curl jako pośredniego kroku do zrzucenia danych gdzieś w systemie plików Hadoop i napisać watchdoga, żeby odpalił nową pracę za każdym razem, gdy nowa porcja danych jest gotowa, ale to jest brudny hack; musi być jakiś bardziej elegancki sposób na zrobienie tego. Jakieś pomysły?
Nie znam się dobrze na tym polu, ale na pierwszy rzut oka podobała mi się także ActiveInsight (licencja CPAL - wymaga atrybucji). –