DRL Course 2023 |Dynamic Programming. Policy and Value Iterations
Курс Deep Reinforcement Learning 2023:
Сезон курсов:
В третьей лекции:
- Поговорили про принцип динамического программирования
- Рассмотрели понятия v- и q-функций, а также понятия оптимальной политики.
- Выписали уравнения Белламана и научились их решать методами Policy Iteration и Value Iteration.
Автор курса: Антон Плаксин, исследователь в группе и доцент Уральского федерального университета.
Наши соц.сети:
Telegram:
Вконтакте:
Канал с вакансиями в telegram:
Канал с апдейтами по курсам:
Как попасть в чат сообщества ODS Mattermost: