2013-07-09 7 views
5

Czy możliwe jest zastosowanie RandomForests do bardzo małych zestawów danych? Mam zestaw danych z wieloma zmiennymi, ale tylko 25 obserwacji każdy. Losowe lasy dają rozsądne wyniki przy niskich błędach OOB (10-25%). Czy istnieje pewna reguła dotycząca minimalnej liczby obserwacji, których należy użyć? W rzeczywistości jedna ze zmiennych odpowiedzi jest niezrównoważona, a jeśli zamierzam ją podpróbować, otrzymam jeszcze mniejszą liczbę obserwacji. Z góry dziękujęMinimalna liczba obserwacji podczas wykonywania Losowego lasu

+0

Ile funkcji zawiera zestaw treningowy? – jonnydedwards

+0

Zawiera 33 predyktory i 4 zmienne odpowiedzi (powinienem wykonać 4 RF) – Oritteropus

+1

sprawdź [to] (http://stats.stackexchange.com/questions/10079/rules-of-thumb-for-minimum-sample-size- for-multiple-regression) dla heurystyki. – jonnydedwards

Odpowiedz

3

W przypadku tego typu zestawów danych (np. P> n) można używać wyłącznie RF. W rzeczywistości używają RF w dziedzinach takich jak genomika, gdzie liczba pól> = 20000 i jest tylko bardzo mała liczba rzędów - powiedzmy 10-12. Cały problem polega na ustaleniu, która z 20-krotnych zmiennych mogłaby stanowić oszczędny znacznik (tj. Wybór cech jest całym problemem).

Nie mam żadnych ROT-ów o minimalnym rozmiarze innym niż wtedy, gdy model nie działa dobrze na zatrzymanej próbce (lub sprawdzanie krzyżówki Hold-One-Back może dobrze działać w twoim przypadku) więc powinieneś spróbować coś innego.

Mam nadzieję, że to pomoże