reinforcement-learning

6Ciepło

3Odpowiedz

Bezkresowy wzrost Q-wartości, konsekwencja powtarzającej się nagrody po powtórzeniu tego samego działania w Q-Learning

Jestem w trakcie opracowywania prostej implementacji Q-Learning przez trywialną aplikację, ale jest coś, co mnie zastanawia . Rozważmy standardowy preparat Q-learning Q(S, A) = Q(S, A) + alpha * [R +

5Ciepło

2Odpowiedz

Jaka jest przewaga gradientu deterministycznej polityki w stosunku do gradientu polityki stochastycznej?

Głęboka deterministyczna strategia polityczna (DDPG) to najnowocześniejsza metoda uczenia się zbrojenia, gdy przestrzeń działania jest ciągła. Jego głównym algorytmem jest Deterministic Policy Gradien

7Ciepło

2Odpowiedz

Python Neural Network Reinforcement Learning

Chcę utworzyć sieć neuronową, która jest wyszkolona w uczeniu się wzmacniania w Pythonie. X -> [ANN] -> yEstimate -> score! -> (repeat until weights are optimised) Używam scikit-learn w tej chwili,

13Ciepło

1Odpowiedz

Jak korzystać z Optymalizatora Tensorflow bez ponownej obliczania aktywacji w programie uczenia zbrojenia, który zwraca kontrolę po każdej iteracji?

EDIT (03.01.16): corresponding github issue Używam Tensorflow (interfejs Python) wdrożenie Q-learning agenta z funkcji zbliżenia wyszkolonych za pomocą gradientu stochastycznego zejście. Przy każdej i

12Ciepło

1Odpowiedz

Ponowne inicjowanie śledzenia uprawnień między odcinkami w implementacji SARSA-Lambda

Patrzę na tę implementację SARSA-Lambda (np. SARSA ze śladami kwalifikowalności) i jest szczegół, którego wciąż nie dostaję. (Obraz z http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html) Więc

9Ciepło

2Odpowiedz

Q Algorytm uczenia się dla Tic Tac Toe

Nie mogłem zrozumieć, jak zaktualizować wartości Q dla gry w kółko i krzyżyk. Czytałem o tym wszystkim, ale nie mogłem sobie wyobrazić, jak to zrobić. Czytałem, że wartość Q jest aktualizowana na końc

7Ciepło

1Odpowiedz

pytania P-Learning za pomocą sieci neuronowych

I realizowane Q-Learning jak opisano http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf W celu ok. Q (S, A), że użycie struktury sieci neuronowej w następujący sposób, esicy aktyw

11Ciepło

1Odpowiedz

Każdy przykładowy kod algorytmu REINFORCE zaproponowany przez Williamsa?

Czy ktoś wie żadnych przykładowy kod algorytmu Ronald J. Williams zaproponowanego w A class of gradient-estimating algorithms for reinforcement learning in neural networks

55Ciepło

2Odpowiedz

Szkolenie sieci neuronowej ze zbrojeniem uczącym się

Znam podstawy sieci neuronowych sprzężenia zwrotnego i jak je trenować z wykorzystaniem algorytmu wstecznej propagacji, ale szukam algorytmu, którego nie będę mógł użyć do szkolenia SSN z uczeniem się

10Ciepło

1Odpowiedz

Q learning vs Temporal Difference vs Wzmocnione uczenie oparte na modelu

Jestem na kursie o nazwie "Inteligentne maszyny" na uniwersytecie. Wprowadzono 3 metody uczenia wzmocnionego, a dzięki nim otrzymaliśmy intuicję, kiedy ich używać i cytuję: Q-Learning - najlepiej, gdy