DRL Course 2023 |Dynamic Programming. Policy and Value Iterations

Курс Deep Reinforcement Learning 2023: Сезон курсов: В третьей лекции: - Поговорили про принцип динамического программирования - Рассмотрели понятия v- и q-функций, а также понятия оптимальной политики. - Выписали уравнения Белламана и научились их решать методами Policy Iteration и Value Iteration. Автор курса: Антон Плаксин, исследователь в группе и доцент Уральского федерального университета. Наши соц.сети: Telegram: Вконтакте: Канал с вакансиями в telegram: Канал с апдейтами по курсам: Как попасть в чат сообщества ODS Mattermost:

5 views

435