Jaki jest najlepszy sposób na liczenie unikalnych użytkowników za pomocą Hadoop?

hej wszystkim, dopiero się rozpoczął na Hadoop i ciekawy, co jest najlepszym sposobem na MapReduce byłoby liczyć unikalnych odwiedzin jeśli logfiles wyglądało to ...Jaki jest najlepszy sposób na liczenie unikalnych użytkowników za pomocą Hadoop?

DATE  siteID action username 
05-05-2010 siteA pageview jim 
05-05-2010 siteB pageview tom 
05-05-2010 siteA pageview jim 
05-05-2010 siteB pageview bob 
05-05-2010 siteA pageview mike

i dla każdej witryny, którą chciał dowiedzieć się unikalni odwiedzający dla każdej witryny?

Myślałem, że program odwzorowujący będzie generował identyfikator witryny \ t nazwa użytkownika , a reduktor zachowa zbiór() unikalnych nazw użytkowników na klucz, a następnie wyemituje długość tego zestawu. Jednak mogłoby to potencjalnie przechowywać miliony nazw użytkowników w pamięci, co nie wydaje się właściwe. Ktoś ma lepszy sposób?

Używam Pythona strumieniowe przy okazji

dzięki

Źródło

2010-05-21 James

Można to zrobić jako operacja 2-etap:

pierwszym etapie emitują (username => siteID), i reduktor prostu zwinąć wielokrotność wystąpienia siteID przy użyciu set - ponieważ zazwyczaj masz o wiele mniej witryn niż użytkowników, powinno to być w porządku.

Następnie w drugim kroku można wyemitować numer (siteID => username) i wykonać prostą liczbę, ponieważ duplikaty zostały usunięte.

Źródło

2010-05-21 20:48:35 tzaman

Sortowanie wtórne służy do sortowania według identyfikatora użytkownika. W ten sposób nie musisz mieć niczego w pamięci - po prostu przesyłaj dane i zwiększaj swój licznik za każdym razem, gdy zobaczysz zmianę wartości dla określonego identyfikatora witryny.

Oto niektóre documentation.

Źródło

2010-05-24 19:22:19 SquareCog

Moja aproach jest podobny do tego, co tzaman dał z małym skręcie

wyjście na mapie: (nazwa użytkownika, siteid) => ("")
zmniejszenia produkcji: (siteid) => (1)
mapa: tożsamość odwzorowujący
zmniejszyć: longsumreducer (czyli po prostu podsumować)

Zauważ, że pierwszy zmniejszyć nie musi przejść każdy z R ekshibicje są prezentowane. Możesz po prostu sprawdzić klucz i wygenerować wynik.

HTH

Źródło

2010-05-26 07:12:53

Często jest to szybsze w użyciu HiveQL uporządkować wiele prostych zadań. Hive przetłumaczy twoje zapytania na Hadoop MapReduce. W tym przypadku można użyć

SELECT COUNT(DISTINCT username) FROM logviews

można znaleźć bardziej zaawansowany przykład tutaj: http://www.dataminelab.com/blog/calculating-unique-visitors-in-hadoop-and-hive/

Źródło

2011-09-07 08:36:53 Datageek

Jaki jest najlepszy sposób na liczenie unikalnych użytkowników za pomocą Hadoop?

Odpowiedz

Powiązane problemy