Znam podstawy sieci neuronowych sprzężenia zwrotnego i jak je trenować z wykorzystaniem algorytmu wstecznej propagacji, ale szukam algorytmu, którego nie będę mógł użyć do szkolenia SSN z uczeniem się wzmacniania.Szkolenie sieci neuronowej ze zbrojeniem uczącym się
Na przykład problem cart pole swing up należy rozwiązać za pomocą SSN. W takim przypadku nie wiem, co należy zrobić, aby kontrolować wahadło, wiem tylko, jak blisko jestem do idealnej pozycji. Muszę nauczyć się SSN w oparciu o nagrodę i karę. W związku z tym nadzorowane uczenie się nie wchodzi w grę.
Inna sytuacja jest podobna do snake game, w której sprzężenie zwrotne jest opóźnione i ogranicza się do celów i celów, a nie do nagrody.
Potrafię wymyślić pewne algorytmy dla pierwszej sytuacji, takie jak wspinaczka górska czy algorytmy genetyczne, ale domyślam się, że obie będą wolne. Mogą również mieć zastosowanie w drugim scenariuszu, ale niesamowicie wolno i nie sprzyjają nauce online.
Moje pytanie jest proste: Czy istnieje prosty algorytm szkolenia sztucznej sieci neuronowej z uczeniem się wzmacniania? Interesują mnie głównie sytuacje nagród w czasie rzeczywistym, ale jeśli algorytm dla sytuacji opartych na celach jest dostępny, jeszcze lepiej.
Dobre pytanie, i myślę, że prawie dokładnie to samo, w którym w moim przypadku sieć neuronowa powtarza się. Kluczową kwestią jest to, że mówisz o 2 różnych algorytmach uczenia się. Nie można zastosować 2 różnych algorytmów uczenia się do tego samego problemu bez powodowania konfliktów, chyba że masz sposób, aby je rozwiązać. –