Пятнадцатое занятие на курсе «Нейронные сети и их применение в научных исследованиях» для группы НС262 шестого потока обучения.
Преподаватель: Артём Васильев
Дата:
00:00 Заставка
01:04 Reinforcement learning (RL)
05:00 Обучение с подкреплением
11:53 Примеры задач, решаемых с использованием RL
22:03 Устоявшаяся терминология
23:20 Stateless environment in RL
24:02 Задача о многоруких бандитах
29:07 Gymnasium framework
35:40 Поиск оптимальной стратегии решения
50:52 Cross-entropy method (CEM)
51:29 Пример оптимизации недифференцируемого функционала
59:51 Пример CEM в gym
01:14:45 Марковский процесс принятия решений (Markov decision process, MDP)
01:16:49 Markov property
01:17:37 Markov process
01:31:07 Проблема поиска оптимальной политики
01:56:37 Поиск оптимальной политики Беллмана для MDP (решение “MDP“)
02:36:59 Пример c CartPole DQN
Материалы лекции:
Открыть в Colab:
Открыть в HTML-формате: