DRL Course | Model-Free Reinforcement Learning: Monte-Carlo, SARSA, Q-Learning

Курс Deep Reinforcement Learning: Сезон курсов: В четвертой лекции: Рассматривается случай MDP с неизвестными функциями награды и перехода между состояниями; Рассмотрели подход Monte-Carlo и Temporal-Difference для нахождения Q-функции в этом случае; Обсудили epsilon-жадные политики; Вывили алгоритмы Monte-Carlo, SARSA и Q-learning Наши соц.сети: Telegram: Вконтакте:
Back to Top