Как работает оптимизатор Adam в глубоком обучении?

По шагам рассматривается принцип работы оптимизатора Adam в нейронных сетях. Используется фреймворк PyTorch, но TensorFlow и Keras используют похожую формулу. Важно понять две составляющие Adam: 1) Предыдущие и текущие градиенты взвешиваются. 2) Для каждого параметра используется свой коэффициент обучения, который уменьшается с каждым вызовом оптимизатора. Принцип работы оптимизатора Adam простой и вы без труда поймете как он работает.

1 view