przypadków użycia:Jak obliczyć prawdopodobieństwo (zaufanie) klasyfikacji SVM dla małego zestawu danych?
Mam mały zestaw danych z około 3-10 próbek w każdej klasie. Używam sklearn SVC do sklasyfikowania tych z jądrem rbf. I potrzebuję pewności prognozy wraz z przewidywaną klasą. Użyłem metody SVC dla metody predykcyjnej predict_proba. Otrzymałem z tego dziwne wyniki. Szukałem trochę i okazało się, że ma sens tylko dla większych zestawów danych.
Znalezione pytanie na stosie Scikit-learn predict_proba gives wrong answers.
Autor pytania zweryfikował to przez pomnożenie zbioru danych, tym samym powielając zestaw danych.
Moje pytania:
1) Jeśli pomnożyć mój zestaw danych przez powiedzmy, 100, mający Każda próbka 100 razy, zwiększa „poprawności” z „predict_proba”. Jakie będą skutki uboczne? Przewyższenie?
2) Czy istnieje inny sposób, w jaki mogę obliczyć zaufanie klasyfikatora? Jak odległość od hiperpłaszczyzn?
3) Dla tego małego rozmiaru próbki, czy SVM jest zalecanym algorytmem, czy powinienem wybrać coś innego?
Co masz na myśli przez "zaufanie?"W każdym razie, z tylko 3 próbkami, nie ma zbyt wiele nadziei w cokolwiek, co wybierzesz." –
@ juanpa.arrivillaga Jak pewny jest klasyfikator, że ta próbka należy do tej klasy? Platt skalowanie lub odległość od hiperpłaszczyzny? –
Jako @juanpa powiedział - z 3 próbek nie ma nic sensownego do zrobienia, naprawdę, w szczególności SVM nie ma sensu (i 99% innych metod statystycznych). Możesz użyć 1-NN, która jest po prostu regułą "dołączyć etykietę najbliższego punkt ", ale znowu - 3 próbki na klasę są o wiele za małe na jakąkolwiek przyzwoitą analizę, chyba że masz dziesiątki tysięcy klas, a pomiędzy nimi jest struktura – lejlot