Co jest przyczyną błędu worka w losowych lasach? Czy jest to optymalny parametr do znalezienia odpowiedniej liczby drzew w losowym lesie?Co jest przyczyną błędu worka w losowych lasach?
Odpowiedz
wezmę próbę wyjaśnienia:
Załóżmy nasz zbiór danych szkolenia jest reprezentowany przez T i załóżmy zbioru danych posiada funkcje M (lub atrybutów lub zmienne).
T = {(X1,y1), (X2,y2), ... (Xn, yn)}
i
Xi is input vector {xi1, xi2, ... xiM}
yi is the label (or output or class).
podsumowanie RF:
algorytm lasy losowe jest klasyfikator na podstawie głównie dwiema metodami -
- Bagging
- Losowe podprzestrzeń m etod.
Załóżmy, że zdecydujesz się S
liczbę drzew w naszym lesie wtedy najpierw utworzyć S
zestawów danych o "same size as original"
utworzonego z losowym resampling danych w T-z wymianą (n razy dla każdego zbioru danych). Spowoduje to utworzenie zestawów danych {T1, T2, ... TS}
. Każdy z nich nazywa się zbiorem danych startowych. Ze względu na "przy zamianie" każdy zestaw danych Ti
może mieć zduplikowane rekordy danych, a Ti może brakować kilku rekordów danych z oryginalnych zestawów danych. Nazywa się to Bootstrapping
. (en.wikipedia.org/wiki/Bootstrapping_(statistics))
Pakowanie to proces pobierania bootstraps &, a następnie agregowanie modeli poznanych na każdym ładowaniu.
Teraz RF tworzy S
drzew i używa m (=sqrt(M) or =floor(lnM+1))
losowych podfunkcji z M
możliwych funkcji do tworzenia dowolnego drzewa. Nazywa się to metodą losowej podprzestrzeni.
Tak więc dla każdego zestawu danych programu startowego Ti
tworzysz drzewo Ki
. Jeśli chcesz sklasyfikować niektóre dane wejściowe D = {x1, x2, ..., xM}
, przepuścisz je przez każde drzewo i wygenerujesz S
danych wyjściowych (po jednym dla każdego drzewa), które można oznaczyć jako Y = {y1, y2, ..., ys}
. Ostateczna prognoza to głos większości nad tym zbiorem.
Out-of-bag błąd:
Po utworzeniu klasyfikatorów (S
drzew), dla każdej (Xi,yi)
w oryginalnym szkolenia ustawić tj T
zaznacz wszystkie Tk
która nie obejmuje (Xi,yi)
. Ten podzbiór, należy zwrócić uwagę, jest zbiorem zestawów danych boostrap, które nie zawierają konkretnego rekordu z oryginalnego zestawu danych. Ten zestaw nazywa się przykładami poza workiem. Istnieją takie podzbiory (po jednym dla każdego rekordu danych w oryginalnym zbiorze danych T).Klasyfikator OOB jest agregacją głosów TYLKO nad Tk
tak, że nie zawiera (xi,yi)
.
Niepewne oszacowanie błędu generalizacji to współczynnik błędu out-of-bag klasyfikatora na zbiorze treningowym (porównaj ze znanymi yi
).
Dlaczego to jest ważne? Badanie szacunków błędów dla klasyfikatorów w workach w Breimanie [1996b], podaje empiryczne dowody na to, że oszacowanie poza workiem jest tak dokładne, jak przy użyciu zestawu testowego o tym samym rozmiarze co zestaw treningowy. Dlatego użycie oszacowania błędu poza bagażem usuwa potrzebę zestawu testów odłogowania.
(Dzięki @Rudolf korekty. Poniżej jego komentarze.)
Wspaniałe wyjaśnienie @Manoj Awasthi –
Dzięki @RushdiShams –
Przyjemne eksplanowanie, byłoby lepiej, gdyby było krótsze – bourneli
W oryginalnej implementacji algorytmu losowego lasu Breimana każde drzewo zostało przeszkolone na około 2/3 wszystkich danych treningowych. W miarę budowania lasu, każde drzewo można przetestować (podobnie, jak w przypadku sprawdzania krzyżowego) na próbkach nieużywanych do budowy tego drzewa. Jest to szacunkowy błąd braku worka - szacowany błąd wewnętrzny losowego lasu podczas jego konstruowania.
Dziękuję za zwięzła i jasna odpowiedź. – ays0110
Jeśli kwestia ta nie jest specyficzna realizacja może chcesz opublikować swoje pytanie na http://stats.stackexchange.com/ – Sentry