Адаптивные стохастические градиентные методы: теория и практика

В докладе мы поговорим об адаптивных градиентных методах и об их стохастических расширениях. Мы обсудим самые популярные теоретические и эвристические приемы для ускорения градиентного спуска. Отдельное внимание мы уделим противоречиям между теорией и практикой, особенно ярко возникающим при обучении нейросетей. Доклад будет базироваться на ряде статей последних лет, включая несколько появившихся в 2020 году. Базируясь на них, мы сформулируем несколько открытых проблемы в оптимизиации и обсудим, как можно п

42 views