hej wszystkim, dopiero się rozpoczął na Hadoop i ciekawy, co jest najlepszym sposobem na MapReduce byłoby liczyć unikalnych odwiedzin jeśli logfiles wyglądało to ...Jaki jest najlepszy sposób na liczenie unikalnych użytkowników za pomocą Hadoop?
DATE siteID action username
05-05-2010 siteA pageview jim
05-05-2010 siteB pageview tom
05-05-2010 siteA pageview jim
05-05-2010 siteB pageview bob
05-05-2010 siteA pageview mike
i dla każdej witryny, którą chciał dowiedzieć się unikalni odwiedzający dla każdej witryny?
Myślałem, że program odwzorowujący będzie generował identyfikator witryny \ t nazwa użytkownika , a reduktor zachowa zbiór() unikalnych nazw użytkowników na klucz, a następnie wyemituje długość tego zestawu. Jednak mogłoby to potencjalnie przechowywać miliony nazw użytkowników w pamięci, co nie wydaje się właściwe. Ktoś ma lepszy sposób?
Używam Pythona strumieniowe przy okazji
dzięki