Kolejny sposób obliczania (w R) wszystkich parach różnić (odległości) między obserwacjami w zbiorze danych. Oryginalne zmienne mogą być typu mieszanego. Obsługa nominalnych, porządkowych i (a) symetrycznych danych binarnych jest osiągnięta przy użyciu ogólnego współczynnika odmienności Gowera (Gower, J. C. (1971) Ogólny współczynnik podobieństwa i niektóre jego właściwości, Biometrics 27, 857-874). Aby uzyskać więcej sprawdzić this on page 47. Jeśli x zawiera kolumny tych typów danych, współczynnik Gower będzie używany jako metryka.
Na przykład
x1 <- factor(c(10, 12, 25, 14, 29))
x2 <- factor(c("oily", "dry", "dry", "dry", "oily"))
x3 <- factor(c("medium", "short", "medium", "medium", "long"))
x4 <- factor(c("active outdoor lover", "TV junky", "TV junky", "active outdoor lover", "TV junky"))
x <- cbind(x1,x2,x3,x4)
library(cluster)
daisy(x, metric = "euclidean")
dostaniesz:
Dissimilarities :
1 2 3 4
2 2.000000
3 3.316625 2.236068
4 2.236068 1.732051 1.414214
5 4.242641 3.741657 1.732051 2.645751
Jeśli jesteś zainteresowany metody redukcji wymiarowości dla danych kategorycznych (również sposób, aby zorganizować zmienne do jednorodnych klastrów) Sprawdź this
pokrewne: http://stackoverflow.com/questions/3007790/finding-the-closest-match/3007816#3007816 – Betamoo