Петр Кудеров | Методы Актор-Критик в CleanRL: PPO, SAC, DDPG
Младший научный сотрудник AIRI, инженер-исследователь ФИЦ ИУ РАН Петр Кудеров рассказывает про продвинутые алгоритмы из семейства актор-критик методов (PPO, SAC, DDPG) на примере их реализации в библиотеке CleanRL.
Ссылка на библиотеку CleanRL:
Ссылки на реализации рассмотренных алгоритмов:
1) PPO:
2) SAC:
3) DDPG:
Плейлист со всеми лекциями «Лето с AIRI»:
Анонсы научных мероприятий всегда публикуются в Telegram-канале AIRI:
1 view
1992
639
7 months ago 03:11:46 1
MAFIA: THE CITY OF LOST HEAVEN (2002, PC) ► ПЕРВОЕ ПРОХОЖДЕНИЕ | СПУСТЯ 20 ЛЕТ | 2024 ► #1
1 year ago 00:53:47 1
Петр Кудеров | Методы Актор-Критик в CleanRL: PPO, SAC, DDPG
1 year ago 00:58:09 1
Петр Кудеров | Введение в RL: Gymnasium, DQN, Actor-critic
2 years ago 01:55:15 1
Онлайн-встреча: магистратура и аспирантура Центра Когнитивного Моделирования МФТИ
3 years ago 01:09:06 10
Мотивация у человека и AGI — Конференция & Семинар AGI
4 years ago 01:30:47 6
Семинар 4: Обзор работ по обучению с подкреплением NeurIPS 2020 v2.0 | Артем Жолус, Петр Кудеров