Być może to pytanie zostało zadane wcześniej, ale myślę, że dobrze jest rozważyć to jeszcze raz, biorąc pod uwagę, że technologie te zostały dojrzałe. Chcemy użyć jednego z flume, kafka, skrybów lub innych, aby przechowywać informacje o profilu facebook i twitter w hbase, aby później przeprowadzić analitykę. Rozważamy to w tym celu, ale nie współpracowałem z innymi technologiami, aby podjąć świadomą decyzję. Każdy, kto potrafi rzucić trochę światła, będzie świetny! Wielkie dzięki.flume vs kafka vs inni
Odpowiedz
Mediawiki (Wikipedia) przeszedł przez to i opublikował ładny artykuł o tym, jak doszli do swojego wyboru (Kafka) vs Scribe, Flume i inni.
http://www.mediawiki.org/wiki/Analytics/Kraken/Request_Logging
nowe połączenie:
https://wikitech.wikimedia.org/wiki/Analytics/Kraken/Logging_Solutions_Recommendation
podsumowanie dla potomności.
„Nasza rekomendacja jest Apache Kafka, rozproszony system komunikacji pub-sub przeznaczone do przerobu Oceniliśmy o tuzin [1] najlepszych systemów pochodzących z domen rozproszonego zbioru dzienników, przetwarzania CEP/streamu i systemów przesyłania wiadomości w czasie rzeczywistym. y podobne cechy, różnią się znacznie pod względem realizacji, a każda specjalizuje się w konkretnym profilu pracy (bardziej szczegółowa dyskusja techniczna jest dostępna jako dodatek).
"Kafka wyróżnia się, ponieważ specjalizuje się w przepustowości i jest wyraźnie rozprowadzana na wszystkich poziomach swojej architektury, co jest interesujące, że ma również na względzie ochronę zasobów [2], oferując sensowne kompromisy, które rozluźniają gwarancje w zamian za wydajność - coś które mogą nie uderzyć w Facebooka lub Google jako istotną cechę w projektowanych przez nich systemach Ograniczenia rodzą kreatywność:
"Ponadto Kafka ma wiele zalet o szczególnym znaczeniu dla czytelników Operacji. Chociaż jest napisany w Scali, jest dostarczany z natywną biblioteką producenta C++, która może być osadzona w module dla naszych serwerów pamięci podręcznej, co eliminuje konieczność uruchamiania maszyny JVM na tych serwerach. Po drugie, producenci mogą być skonfigurowani do zadań wsadowych w celu optymalizacji ruchu sieciowego, ale nie tworzą stałego dziennika lokalnego, które wymagałoby dodatkowej konserwacji. Wbudowanie I/O i pamięci w Kafce jest zależne od systemu operacyjnego, a nie od JVM [3].
"Kafka została napisana przez LinkedIn i jest teraz projektem Apache.W produkcji na LinkedIn około 10 000 producentów jest obsługiwanych przez osiem serwerów Kafka na centrum danych.Kloty te konsolidują swoje strumienie w jednym centrum danych analytics, które Kafka obsługuje poza pudełko za pomocą prostej konfiguracji zapisu lustrzanego:
"Te funkcje są bardzo odpowiednie dla naszych zamierzonych zastosowań; nawet te, których nie zamierzamy używać - takie jak odłamki i przekierowanie według kategorii "tematu" - są interesujące i mogą okazać się przydatne w przyszłości, gdy rozszerzamy nasze cele.
„W dalszej części tego dokumentu nurkuje do tych zagadnień w sposób bardziej szczegółowy ...”
link wydaje się być teraz zepsuty. – tehAon
kiedy mówisz o korycie, prawdopodobnie masz na myśli koryt-ng? ponieważ stary flume bardzo różni się od flume-ng. – Shengjie