Jestem nowy w eksploracji danych i trochę eksperymentuję.Dobry algorytm znajdowania motywów w tweetach uszeregowanych według liczby obserwatorów?
Załóżmy, że mam użytkowników N twitterów i to, co chcę znaleźć, to ogólny motyw, o którym piszą (oparty na tweetach).
Następnie chcę nadać większą wagę każdemu motywowi, jeśli ten użytkownik ma wyższych obserwatorów.
Następnie chcę połączyć wszystkie motywy, jeśli są wystarczająco podobne, ale nadal zachowam ważenie według liczby twitterów.
Więc w zasadzie lista „ważnych” tematów wg organu (liczba twitter autora)
Na przykład, jak news.google.com ale rankingu byłaby oparta na zwolenników twitter, które są odpowiedzialne za tematem.
Wolę coś w pytonie, ponieważ jest to język, który najbardziej mi się podobał.
Wszelkie pomysły?
Dzięki
EDIT: Tutaj jest dobrym przykładem tego, co próbuję zrobić (ale z danych diff) http://www.facebook.com/notes/facebook-data-team/whats-on-your-mind/477517358858
zasadzie analizy różnych danych oraz ich korelację z siebie: Kategorie pracy i kategorie wiekowe osób lub kategorie słów i liczby znajomych, jak w tym przykładzie.
Gdzie powinienem zacząć to rozwiązywać i generować takie wykresy?
Dodałem tag pythona - jakikolwiek konkretny powód, dla którego oznaczono go "R"? –
tylko dlatego, że myślałem, że możliwe rozwiązanie może być wyrażone w R jakoś. – Maverick
Nie szukasz agnostyków językowych, jeśli nie masz konkretnego języka do pracy? –