Moim celem jest grupowanie słów na podstawie ich zbieżności w stosunku do zbioru dokumentów tekstowych. Wyliczyłem podobieństwo Jaccard pomiędzy każdą parą słów. Innymi słowy, mam ze sobą rzadką matrycę odległości. Czy ktokolwiek może wskazać mi dowolny algorytm grupowania (i ewentualnie jego bibliotekę w Pythonie), który bierze matrycę odległości jako dane wejściowe? Nie znam też wcześniej liczby klastrów. Chcę tylko skupić te słowa i uzyskać, które słowa są skupione razem.Klastrowanie oparte na macierzy odległościowej
Odpowiedz
Pakiet klastrowania scipy może być przydatny (scipy.cluster). Istnieją hierarchiczne funkcje grupowania w scipy.cluster.hierarchy. Należy jednak pamiętać, że wymagają one skondensowanej matrycy jako wejścia (górny trójkątny macierzy odległości). Mam nadzieję, że strony dokumentacji pomogą ci razem.
Możesz użyć większości algorytmów w nauce scikit z wstępnie obliczoną macierzą odległości. Niestety potrzebujesz wielu klastrów dla wielu algorytmów. DBSCAN jest jedynym, który nie potrzebuje liczby klastrów, a także używa macierzy arbitralnych odległości. Możesz także wypróbować MeanShift, ale to zinterpretuje odległości jako współrzędne - co również może działać.
Istnieje również affinity propagation, ale tak naprawdę nie widziałem, że działa dobrze. Jeśli jednak potrzebujesz wielu klastrów, może to być pomocne.
Ujawnienie: Jestem uczonym dev rdzenia naukowego.
czy możesz podać [przykład odtwarzalny] (http://stackoverflow.com/help/mcve) algorytmu uczenia się naukowego używającego macierzy odległości jako danych wejściowych? – Bryan
Jest jeden tutaj: http://scikit-learn.org/dev/auto_examples/cluster/plot_segmentation_toy.html –
spójrz na http://code.google.com/p/em-python/ i "http://en.wikipedia.org/wiki/Expectation-maximization_algorithm" – Moj
jest również http: // www .pymix.org/pymix/index.php? n = PyMix.Tutorial – Moj
@Moj Przykro mi ... Nie mogę się dowiedzieć, w jaki sposób informacje zawarte w linkach, o których wspomniałeś, są tutaj istotne – user2115183