2013-10-03 38 views
7

Czy ktoś ma jakieś doświadczenie z wykorzystaniem Stata i Hadoop? Stata 13 ma teraz Java Plugin API, więc myślę, że powinno być proste, aby je ładnie grać.Hadoop i Stata

Jestem szczególnie zainteresowany możliwością analizowania danych na blogu, aby uzyskać go w formie odpowiedniej do analizy statystycznej.

Pytanie to pojawiło się ostatnio w postaci on Statalist, ale nie było odpowiedzi, więc pomyślałem, że wypróbuję to tutaj, gdzie publiczność ma większe doświadczenie z tą technologią.

+0

Jako długoletni Statalist rosły uważam, że porównanie, chociaż dobrze rozumie, trochę invidious. Moje własne przypuszczenie jest takie, że nie otrzymujesz odpowiedzi, ponieważ odpowiedź brzmi "Nie". –

+0

@Nick Cox Nie chciałem obrażać. Mam wielki szacunek dla Statalist i jego członków. Zmienię moje niezręczne frazowanie. –

+0

Dobrze i dzięki. –

Odpowiedz

1

Dimitry,

myślę, że byłoby łatwiej zrobić coś takiego za pomocą ELK stos (http://www.elastic.co). Logstash (warstwa środkowa) zawiera kilka analizatorów/tokenizerów/analiz zbudowanych na silniku Apache Lucene w celu czyszczenia i formatowania danych dziennika i może przesłać uzyskane dane do elastycznego przeszukiwania, które udostępnia interfejs API HTTP, który można zwinąć dość łatwo, aby uzyskać wyniki (np. , użyj insheetjson i podaj żądanie HTTP GET jako adres URL i powinno zostać zaimportowane do Stata bez większego problemu).

Próbowałem zebrać razem program do korzystania z biblioteki Jackson JSON, aby zbudować bardziej niezawodne funkcje wejścia/wyjścia JSON z poziomu Stata i na pewno nie miałbym nic przeciwko próbie pracy z innymi, aby to zrobić.

Nadzieja to pomaga, Billy

0

Wezmę (nie?) Wykształcony dźgnięcie w tym. Z wyglądu interfejsu API języka Java wywołujący wydaje się traktować Statę jako zasadniczo magazyn danych. Jeśli tak jest, to wyobrażam sobie, że Stata pasowałaby do świata hadoopów jako baza danych i byłaby dostępna przez własne InputFormat i OutputFormat. W twoim konkretnym przypadku wyobrażam sobie, że napiszesz StataOutputFormat, którego twój reduktor użyłby do napisania sparsowanych danych. Jedyną wadą wydaje się być przywoływane wasze komentarze, które Stata aplikacje bywają I/O bound więc nie wiem, że przy użyciu Hadoop jest naprawdę pomoże ci od

  • musisz napisać wszystkie dane i tak, i zapis będzie związany z I/O, niezależnie od tego, czy używasz hadoop, czy nie.