Czy ktoś próbował zastosować gładszą metrykę oceny przed zastosowaniem metody L w celu określenia liczby klastrów k-średnich w zbiorze danych? Jeśli tak, czy poprawiło to wyniki? Lub zezwolić na mniejszą liczbę prób k-średnich, a więc znacznie większy wzrost prędkości? Z jakiego algorytmu/metody wygładzania korzystałeś?Używanie gładzika metodą L do określania liczby klastrów K-średnich
„L-Metoda” jest szczegółowo w: Determining the Number of Clusters/Segments in Hierarchical Clustering/Segmentation Algorithms, Salvador & Chan
ten oblicza metrykę oceny dla wielu różnych liczy klastra próbny. Następnie, aby znaleźć kolano (które występuje dla optymalnej liczby skupień), dwie linie są dopasowywane za pomocą regresji liniowej. Prosty iteracyjny proces jest stosowany w celu poprawy dopasowania kolanowego - wykorzystuje to istniejące obliczenia metryk oceny i nie wymaga żadnych powtórzeń k-średnich.
Dla metryki oceny używam odwrotności uproszczonej wersji indeksu Dunnsa. Uproszczony dla szybkości (w zasadzie uproszczona jest moja średnica i obliczenia między klastrami). Odwrotność jest taka, że indeks działa we właściwym kierunku (tj. Niższy jest ogólnie lepszy).
K-średnich jest algorytmem stochastycznym, więc zwykle jest uruchamiany wiele razy i najlepiej pasuje wybrany. Działa to całkiem dobrze, ale kiedy robisz to dla klastrów 1..N, czas szybko się sumuje. Dlatego w moim interesie jest utrzymanie liczby przebiegów pod kontrolą. Całkowity czas przetwarzania może decydować, czy moja implementacja jest praktyczna, czy nie - mogę zrezygnować z tej funkcji, jeśli nie mogę jej przyspieszyć.
Thinking o tym dalej, nie sądzę, że równomierna (tj. bieżąca średnia) gładsza miałaby znaczący efekt, ponieważ metoda L następnie dopasowuje linie za pomocą najmniejszych kwadratów. Jednak gładszy kształt, taki jak Gaussian, może zachowywać się inaczej. Mam zamiar spróbować wprowadzić Gaussa o umiarkowanych rozmiarach (połowa szerokości około 6-10 wydaje mi się odpowiednia). To będzie test jakościowy. – winwaed
Myślę, że będzie to dobry projekt badawczy o umiarkowanej wielkości. Jeśli są studenci szukający projektu, byłbym zainteresowany współpracą/mentoringiem/współautorem. Taki projekt powinien dokonywać porównań ilościowych i być bardziej ogólny niż moja konkretna aplikacja. Dodam tag projektu do pytania. – winwaed
Mam kilka bardzo trudnych, nienaukowych i jakościowych wyników: Próbowałem filtrów gaussowskich HalfWidthHalfHeight 5 i 3. W obu przypadkach zwiększono szacowaną liczbę klastrów, ale szacowany błąd spadł (wykonałem testy około 8-10 przebiegów z każdą konfiguracją). To są dane z rzeczywistego świata, a wzrost szacunków jest wiarygodny. Sądzę więc, że to wystarcza, aby zagwarantować mini-projekt badawczy z kontrolowanymi danymi i na lepszych warunkach. – winwaed