2010-07-27 10 views
15

Poszukuję zbioru danych serwisów społecznościowych Twitter lub Twitter dla mojego projektu. Obecnie mam zbiór danych CAW 2.0 twitter, ale zawiera on tylko tweety użytkowników. Chcę danych, które pokazują liczbę przyjaciół, obserwujących i takie.Twitter (portale społecznościowe) Zestaw danych

To nie musi być twitter, ale wolałbym twitter lub facebook. Próbowałem już infochimps, ale najwyraźniej plik nie jest już dostępny do pobrania na twitterze.

Czy ktoś może mi dać dobre strony internetowe do znalezienia tego rodzaju zbioru danych. Mam zamiar nakarmić zbiór danych do hadoopu.

Odpowiedz

7

Spróbuj następujące trzy zestawy danych:

zawiera około 97 milllion tweety:

http://demeter.inf.ed.ac.uk/index.php?option=com_content&view=article&id=2:test-post-for-twitter&catid=1:twitter&Itemid=2

Edytora : zestaw danych wcześniej połączony powyżej nie jest już dostępny ze względu na prośbę Twittera o usunięcie go.

Zawiera wykres obsługi 47 milionów użytkowników:

http://an.kaist.ac.kr/traces/WWW2010.html

Po zbiór danych zawiera sieć, jak również tweety, jednak dane zostały zebrane przez śnieżki pobierania próbek lub coś stąd sieć znajomych nie jest jednolita. Ma około 10 milionów tweetów, które możesz wysłać badaczowi na jeszcze więcej danych.

http://www.public.asu.edu/~mdechoud/datasets.html

Chociaż spojrzeć na licencji dane są dystrybuowane pod.

Mam nadzieję, że to pomoże, Czy możesz mi powiedzieć, jaki rodzaj pracy planujesz z tym zestawem danych? Mam kilka skryptów Hadoop/wieprzowych do korzystania ze zbioru danych

+0

nie jestem pewien, ale użyję go do mojej klasy uczenia maszynowego. – denniss

+1

@Akshay Bhat: Wydaje się, że usunęli te zbiory danych od dzisiaj. Czy znasz jakieś inne zestawy danych, które mogą być dostępne? Dziękuję Ci! – Legend

5

100 milionów stron zostały wydobyte z facebook: http://it.slashdot.org/story/10/07/28/1350222/100-Million-Facebook-Pages-Leaked-On-Torrent-Site?art_pos=6

nie wiem co one zawierają, ale można spojrzeć, wydaje się to łatwe do znalezienia na torrenty witryn.

Można również użyć interfejsu API facebook, ale jeśli chcesz mieć wystarczająco duży zbiór danych, musisz poprosić Facebook'a o prawo dostępu do niego. Zawiera ona linki do przyjaciół, lubi, grupy, ...

+1

Istnieje również interfejs API Twittera. –

+0

Tak, widziałem to.dzięki jednak – denniss

+0

dziwne, jak nie wygrałem nagrody –