Курс Deep Reinforcement Learning 2023:
Сезон курсов :
В шестой лекции:
Рассматриваются MDP с бесконечным пространством действий
Обсуждается Policy Gradient теоремы
Выводятся алгоритмы Reinforce, A2C и PPO
Автор курса: Антон Плаксин, исследователь в группе и доцент Уральского федерального университета.
Наши соц.сети:
Telegram:
Вконтакте:
Канал с вакансиями в telegram:
Канал с апдейтами по курсам:
Как попасть в чат сообщества ODS Mattermost: