2011-01-05 10 views
5

Jestem nowy w eksploracji danych i trochę eksperymentuję.Dobry algorytm znajdowania motywów w tweetach uszeregowanych według liczby obserwatorów?

Załóżmy, że mam użytkowników N twitterów i to, co chcę znaleźć, to ogólny motyw, o którym piszą (oparty na tweetach).
Następnie chcę nadać większą wagę każdemu motywowi, jeśli ten użytkownik ma wyższych obserwatorów.

Następnie chcę połączyć wszystkie motywy, jeśli są wystarczająco podobne, ale nadal zachowam ważenie według liczby twitterów.

Więc w zasadzie lista „ważnych” tematów wg organu (liczba twitter autora)

Na przykład, jak news.google.com ale rankingu byłaby oparta na zwolenników twitter, które są odpowiedzialne za tematem.

Wolę coś w pytonie, ponieważ jest to język, który najbardziej mi się podobał.

Wszelkie pomysły?

Dzięki

EDIT: Tutaj jest dobrym przykładem tego, co próbuję zrobić (ale z danych diff) http://www.facebook.com/notes/facebook-data-team/whats-on-your-mind/477517358858

zasadzie analizy różnych danych oraz ich korelację z siebie: Kategorie pracy i kategorie wiekowe osób lub kategorie słów i liczby znajomych, jak w tym przykładzie.

Gdzie powinienem zacząć to rozwiązywać i generować takie wykresy?

+0

Dodałem tag pythona - jakikolwiek konkretny powód, dla którego oznaczono go "R"? –

+0

tylko dlatego, że myślałem, że możliwe rozwiązanie może być wyrażone w R jakoś. – Maverick

+0

Nie szukasz agnostyków językowych, jeśli nie masz konkretnego języka do pracy? –

Odpowiedz

4

Ogólnie rzecz biorąc: R ma kilka pakietów specjalnie ukierunkowanych na eksplorację tekstu i datamining, oferując szeroki zakres technik. Nie mam wiedzy na temat tego rodzaju pakietów w Pythonie, ale to nie znaczy, że nie istnieją. Po prostu nie wdrożyłbym go sam, jest nieco bardziej skomplikowany niż na pierwszy rzut oka.

kilka rzeczy, które trzeba wziąć pod uwagę:

  • określenie "motyw": jest to, że oni używać tagów? Czy grupujesz tagi? Czy masz małą listę z ograniczonym zestawem, czy zbiór jest nieograniczony?
  • zdefiniować "temat ogólny": czy jest to najczęściej używany motyw? Jak radzisz sobie z krawatami? Jeśli użytkownik napisze około 10 tematów o tyle, co wtedy?
  • Zdefiniuj "waga": czy jest to odpowiednik liczby użytkowników? Kwadrat kwadratowy? Jakaś kategoria?

Jeśli masz ogólne pojęcie na ten temat, możesz rozpocząć korzystanie z tm package w celu wyodrębnienia wszystkich informacji w sprawnym formacie. Pakiet jest oparty na macierzach i obiektach metadanych. Pozwalają one uzyskać ważone częstotliwości dla różnych tematów, pod warunkiem, że zdefiniowałeś, co uważasz za motyw. Możesz także użyć różnych funkcji ważenia, aby uzyskać to, co chcesz. Podręcznik to here. Jeśli jednak nie masz pewności, co robisz, odwiedź również crossvalidated.com, aby uzyskać dodatkowe wskazówki. W rzeczywistości jest to bardziej pytanie o eksplorację danych niż o programowanie.

+3

Nie wspominając już o tym, o ile trudniejsze może być wydobywanie tekstów, gdy każda pozycja ma maksymalnie 160 znaków. – GWW