Więc pisałem własne kody dla HoG i jego wariantu do pracy z obrazami głębi. Jednak utknąłem z testowaniem mojego wyszkolonego SVM w części okna detekcji.Jak zaimplementować algorytm lepszego przesuwanego okna?
Wszystko, co zrobiłem teraz, to najpierw stworzyć piramidę obrazu z oryginalnego obrazu i uruchomić okno przesuwne o rozmiarze 64x128 z lewego górnego rogu do prawego dolnego rogu.
Oto przechwytywania wideo z nim: http://youtu.be/3cNFOd7Aigc
Teraz problemem jest to, że jestem coraz więcej fałszywych alarmów, niż się spodziewałem.
Czy istnieje sposób, aby usunąć wszystkie fałszywe alarmy (oprócz treningu z większą liczbą obrazów)? Do tej pory mogę uzyskać "wynik" z SVM, który jest odległością do samego marginesu. Jak mogę tego użyć, aby wykorzystać moje wyniki?
Czy ktoś ma jakiś wgląd we wdrażanie dobrego algorytmu przesuwnego okna?
Świetna odpowiedź, ale mam jeszcze kilka pytań, jeśli ty lub ktoś inny nie ma nic przeciwko. Jak używać tego razem z przestrzenią skali? Czy traktuję wykryte okno w innej skali jako tylko kolejny sąsiad? A jak wchodzi w grę Non Maximal Suppression? W każdym razie, wciąż, dziękuję za jasną odpowiedź. –
Dobre pytanie o skale! W rzeczywistości możesz uwzględnić skalę w sąsiedztwie (w lewo/w prawo/w górę/w dół/w mniejszym/większym), ale zależy to w dużej mierze od danych i celu końcowego - czy otrzymujesz wiele fałszywych alarmów o wielu skalach? Niestety metoda prób i błędów jest najlepszą praktyczną metodologią w dziedzinie widzenia komputerowego. O nie-maksymalnym tłumieniu, cóż, co opisałem, jest formą nie-maksymalnego tłumienia (zachowujesz tylko lokalne maksima). – Antoine