Jestem studyng TensorFlow i jak go używać, nawet jeśli nie jestem ekspertem od sieci neuronowej i głębokiej nauki (tylko podstawy).Gradient Descent vs Adagrad vs Momentum w TensorFlow
Poniższe samouczki Nie rozumiem rzeczywistej i praktycznej różnicy między trzema optymalizatorami pod względem strat. Patrzę na API i rozumiem zasady, ale moje pytania są następujące:
1. Kiedy lepiej używać jednego zamiast innych?
2. Czy istnieją ważne różnice, o których należy wiedzieć?
Nie ma teorii, co do których optymalizator ma lepiej działać na powiedzmy MNIST, więc ludzie wypróbowują kilka z nich i wybierają jeden, który najlepiej pasuje do ich problemu. Gradient Descent jest zwykle najgorszy ze wszystkich, Momentum/AdaGrad może być lepszy/gorszy od drugiego w zależności od zbioru danych. –
Ok, potrzebuję stworzyć model do rozpoznawania obrazów z 4 - 5 klasami rozpoznawania. Jeśli używam zbioru danych Imagenet, co sugerujesz mi? – Kyrol
AdamOptimizer wydaje się działać dobrze na Imagenet –