11

Jak wiadomo, nowoczesny najpopularniejszym CNN (splotowe sieć neuronowa): VGG/ResNet (FasterRCNN), SSD, Yolo, Yolo v2, DenseBox, DetectNet - są nie obracać niezmienna: Are modern CNN (convolutional neural network) as DetectNet rotate invariant?Dlaczego niezmiennicze sieci neuronowe nie są wykorzystywane w zwycięzcach popularnych konkursów?

znany również, że istnieje kilka sieci neuronowe o wykrywanie obiektów Rotate-niezmienność:

  1. Rotation niezmienny Neoperceptron 2006 (PDF): https://www.researchgate.net/publication/224649475_Rotation-Invariant_Neoperceptron

  2. rotacji Nauka niezmiennicze splotu filtry do klasyfikacji tekstur (2016 PDF): https://arxiv.org/abs/1604.06720

  3. RIFD-CNN: obrót o stałej Fisher dyskryminacyjna splotowych Neural Networks do wykrywania obiektów 2016 (PDF): http://www.cv-foundation.org/openaccess/content_cvpr_2016/html/Cheng_RIFD-CNN_Rotation-Invariant_and_CVPR_2016_paper.html

  4. Zakodowane Niezmienniczość w splotowych Neural Networks 2014 (PDF)

  5. Niezmienne splotowe splotowe sieci neuronowe do przewidywania morfologii galaktyk (PDF): https://arxiv.org/abs/1503.07077

  6. Learning Obrót niezmienny splotowy Sieci neuronowe do detekcji obiektów w VHR optyczne Remote Sensing Images 2016: http://ieeexplore.ieee.org/document/7560644/

Wiemy, że w takich konkursach obraz wykrywania jak: image-net MSCOCO Pascal VOC - używane sieci zespoły (jednocześnie niektóre sieci neuronowe). Lub zestawy sieciowe w pojedynczej sieci, takie jak ResNet (Residual Networks Behave Like Ensembles of Relatively Shallow Networks)

Ale są używane niezmienne kombinacje sieciowe w zwycięzcach, takich jak MSRA, a jeśli nie, to dlaczego? Dlaczego w zespole dodatkowa niezmienna sieć rotacyjna nie zwiększa dokładności wykrywania niektórych obiektów, takich jak obiekty lotnicze - które obrazy są wykonywane pod różnymi kątami obrotu?

To może być:

  • obiekty powietrzne, które są fotografowane z ziemi enter image description here

  • lub naziemne obiekty, które są fotografowane z powietrza enter image description here

Dlaczego rotacji -wariantowe sieci neuronowe nie są wykorzystywane w przypadku zwycięzców pularowe konkursy z wykrywaniem obiektów?

+0

W wielu konkursach ludzie analizują każdą klasę i jej możliwe rotacje. Obraz samolotu na niebie może mieć każdy możliwy obrót, ale poziomy obraz psa, który nie biegnie. I generują nowe obrazy treningowe od oryginalnych z każdym możliwym obrotem. Być może jest to dokładniejsze niż algorytm niezmienny rotacyjny. Innym możliwym wyjaśnieniem jest to, że istnieją bardzo wydajne biblioteki do uruchamiania CNN na GPU (nie wiem, czy istnieją wydajne biblioteki na GPU dla niezmiennych rotacyjnych sieci neuronowych). – Rob

+0

@Rob ** 1. ** Tak, podejście niezmiennikowe może być użyte tylko do transformacji afinicznej (do wykrywania obiektów powietrznych z ziemi lub obiektów naziemnych z powietrza), ale nie do transformacji eliptycznej (do wykrywania zwierząt), a nie do obracania się wokół osi poza płaszczyzną strzelania. Ale CNN może być używany jako dodatek do zwykłej sieci splotowej w zespołach. Rotate-invariant-CNN wymaga znacznie mniejszej ilości obrazów wejściowych i dostrajalnych parametrów - a przez to uczy się szybciej i dokładniej (dla najbardziej odpowiednich obiektów). – Alex

+0

@Rob ** 2. ** Informacje o GPU. 5. Niezmienne splotowe splotowe sieci neuronowe do prognozowania morfologii galaktyk: '7.9 Implementacja ... To pozwoliło na użycie akceleracji GPU bez dodatkowego wysiłku ... Sieci zostały przeszkolone na kartach NVIDIA GeForce GTX 680." Https: // arxiv .org/pdf/1503.07077v1.pdf Może również być niezmiennikiem rotacyjnym 'cv :: SURF_GPU' w jakiś sposób może być użyty zamiast splotu-jądra (macierzy). – Alex

Odpowiedz

5

Niedawne postępy w rozpoznawaniu obrazu, który powstał głównie poprzez zmianę podejścia z klasycznym wyborem fabularnego - płytkie algorytm uczenia do nie wybór feture - głęboko algorytm uczenia nie była spowodowana tylko przez właściwości matematycznych splotowego neuronowych sieci.Tak - oczywiście ich zdolność do przechwytywania tych samych informacji przy użyciu mniejszej liczby parametrów była częściowo spowodowana przez ich niezmienną właściwość zmiany , ale ostatnia research wykazała, że ​​nie jest to klucz do zrozumienia ich sukcesu.

Moim zdaniem główną przyczyną tego sukcesu było opracowanie szybciej algorytmów uczenia niż bardziej matematycznie dokładny nich i dlatego mniej uwagę kładzie się na rozwój innego własności niezmienne sieci neuronowych.

Oczywiście - niezmienność obrotu nie jest w ogóle pomijana. Częściowo jest to spowodowane powiększaniem danych, w którym umieszczasz nieznacznie zmieniony (np. Obrócony lub przeskalowany) obraz do swojego zestawu danych - z tą samą etykietą. Jak możemy przeczytać w tym fantastic book te dwa podejścia (więcej struktury vs mniej struktury + rozszerzenie danych) są mniej więcej równoważne.

+1

Tak, myślę, że niezmienne rotacyjne jądra splotowe nie mogły jeszcze zostać wyszkolone tak szybko, jak konwencjonalne jądro. Jednak jądra niezmienniki rotacyjne wymagają mniejszej liczby parametrów do nauki (1 niezmiennikowe jądro zamiast 12 różnych zwykłych ziaren dla każdego 30-stopniowego kąta) i mniej obrazów wejściowych. To powinno przyspieszyć szkolenie. – Alex

+1

Czy mógłbyś być bardziej konkretny (np. Numer strony), gdzie Bishop stwierdza, że ​​te dwa podejścia są mniej więcej równoważne? Przeszukałem książkę w poszukiwaniu "augmentu", ale nie mogłem nic znaleźć. – DharmaTurtle

1

Zastanawiam się także, dlaczego społeczność lub uczony nie poświęciła dużo uwagi niezmiennej racji CNN jako @Alex.

Jedna z możliwych przyczyn, moim zdaniem, jest taka, że ​​wiele scenariuszy nie potrzebuje tej właściwości, szczególnie w przypadku popularnych konkursów. Jak wspomniał Rob, niektóre naturalne zdjęcia są już zrobione w zunifikowany poziomy (lub pionowy) sposób. Na przykład w wykryciu twarzy wiele prac wyrówna obraz, aby upewnić się, że ludzie stoją na ziemi przed podaniem do jakichkolwiek modeli CNN. Szczerze mówiąc, jest to najtańszy i najbardziej efektywny sposób na to konkretne zadanie.

Istnieje jednak kilka scenariuszy w prawdziwym życiu, które wymagają niezmiennej własności rotacji. Tak więc dochodzę do innego wniosku: ten pogląd nie jest trudny z punktu widzenia tych ekspertów (lub badaczy). Przynajmniej możemy użyć rozszerzenia danych w celu uzyskania niezmiennego obrotu.

Wreszcie, dziękuję bardzo za twoje podsumowanie na temat gazet. Dodałem jeszcze jeden papier Group Equivariant Convolutional Networks_icml2016_GCNN i jego implementation on github przez inne osoby.