Odpowiedz

76

wezmę próbę wyjaśnienia:

Załóżmy nasz zbiór danych szkolenia jest reprezentowany przez T i załóżmy zbioru danych posiada funkcje M (lub atrybutów lub zmienne).

T = {(X1,y1), (X2,y2), ... (Xn, yn)}

i

Xi is input vector {xi1, xi2, ... xiM} 

yi is the label (or output or class). 

podsumowanie RF:

algorytm lasy losowe jest klasyfikator na podstawie głównie dwiema metodami -

  • Bagging
  • Losowe podprzestrzeń m etod.

Załóżmy, że zdecydujesz się S liczbę drzew w naszym lesie wtedy najpierw utworzyć S zestawów danych o "same size as original" utworzonego z losowym resampling danych w T-z wymianą (n razy dla każdego zbioru danych). Spowoduje to utworzenie zestawów danych {T1, T2, ... TS}. Każdy z nich nazywa się zbiorem danych startowych. Ze względu na "przy zamianie" każdy zestaw danych Ti może mieć zduplikowane rekordy danych, a Ti może brakować kilku rekordów danych z oryginalnych zestawów danych. Nazywa się to Bootstrapping. (en.wikipedia.org/wiki/Bootstrapping_(statistics))

Pakowanie to proces pobierania bootstraps &, a następnie agregowanie modeli poznanych na każdym ładowaniu.

Teraz RF tworzy S drzew i używa m (=sqrt(M) or =floor(lnM+1)) losowych podfunkcji z M możliwych funkcji do tworzenia dowolnego drzewa. Nazywa się to metodą losowej podprzestrzeni.

Tak więc dla każdego zestawu danych programu startowego Ti tworzysz drzewo Ki. Jeśli chcesz sklasyfikować niektóre dane wejściowe D = {x1, x2, ..., xM}, przepuścisz je przez każde drzewo i wygenerujesz S danych wyjściowych (po jednym dla każdego drzewa), które można oznaczyć jako Y = {y1, y2, ..., ys}. Ostateczna prognoza to głos większości nad tym zbiorem.

Out-of-bag błąd:

Po utworzeniu klasyfikatorów (S drzew), dla każdej (Xi,yi) w oryginalnym szkolenia ustawić tj T zaznacz wszystkie Tk która nie obejmuje (Xi,yi). Ten podzbiór, należy zwrócić uwagę, jest zbiorem zestawów danych boostrap, które nie zawierają konkretnego rekordu z oryginalnego zestawu danych. Ten zestaw nazywa się przykładami poza workiem. Istnieją takie podzbiory (po jednym dla każdego rekordu danych w oryginalnym zbiorze danych T).Klasyfikator OOB jest agregacją głosów TYLKO nad Tk tak, że nie zawiera (xi,yi).

Niepewne oszacowanie błędu generalizacji to współczynnik błędu out-of-bag klasyfikatora na zbiorze treningowym (porównaj ze znanymi yi).

Dlaczego to jest ważne? Badanie szacunków błędów dla klasyfikatorów w workach w Breimanie [1996b], podaje empiryczne dowody na to, że oszacowanie poza workiem jest tak dokładne, jak przy użyciu zestawu testowego o tym samym rozmiarze co zestaw treningowy. Dlatego użycie oszacowania błędu poza bagażem usuwa potrzebę zestawu testów odłogowania.

(Dzięki @Rudolf korekty. Poniżej jego komentarze.)

+2

Wspaniałe wyjaśnienie @Manoj Awasthi –

+0

Dzięki @RushdiShams –

+2

Przyjemne eksplanowanie, byłoby lepiej, gdyby było krótsze – bourneli

28

W oryginalnej implementacji algorytmu losowego lasu Breimana każde drzewo zostało przeszkolone na około 2/3 wszystkich danych treningowych. W miarę budowania lasu, każde drzewo można przetestować (podobnie, jak w przypadku sprawdzania krzyżowego) na próbkach nieużywanych do budowy tego drzewa. Jest to szacunkowy błąd braku worka - szacowany błąd wewnętrzny losowego lasu podczas jego konstruowania.

+1

Dziękuję za zwięzła i jasna odpowiedź. – ays0110