Еще вэпоху GAN алгоритмов, мывидели эксперименты когда модель тренировали накадрах изGTA Vиполучали что-то вроде игрового

Еще в эпоху GAN алгоритмов, мы видели эксперименты когда модель тренировали на кадрах из GTA V и получали что-то вроде игрового движка, я про это писал тут . В этот раз подобный подход повторили в диффузии и  получили почти «играбельную» Doom версию , которая, во-первых, бесконечная — так как модель знает только «визуальные правила мира», во вторых работает почти в режиме реального времени, в третьих — быстро для новых игр это не завести (пока что) Почитал пейпер, можете развернуть детали если интересно: Как модель была обучена: 1. Ресечры обучили АИ-агента играть в Doom — агент научился играть методом проб и ошибок, получая вознаграждения за хорошие действия (например, уничтожение врагов) и штрафы за плохие (например, получение урона). 2. В процессе обучения агента все его игровые сессии записывали, так и получили большой геймплей датасет – где были действия агента и ревординг, вместе с тем что происходило на экране. 3. Полученный датасет использовали для обучения диффузионной модели — это на которой работаю почти все txt2img. Полученная моделька научилась предсказывать, как должен выглядеть следующий кадр игры, основываясь на предыдущих кадрах и предпринятых игроком действиях. Почему предсказание следующего кадра работает: 1. Диффузионная модель изучает закономерности и связи между действиями игрока, предыдущими кадрами и результирующим следующим кадром. По сути, она изучает «правила» того, как игровой мир меняется в ответ на действия. 2. Видя множество примеров игрового процесса, модель может понять сложные игровые механики, такие как движение врагов, открытие дверей или влияние оружия на окружающую среду (и даже надписи интерфейса, смотрим на кол-во патронов в интерфейсе). 3. Модель не просто копирует кадры, которые она видела раньше. Вместо этого она учится генерировать новые, подходящие кадры на основе текущего состояния игры и действий игрока. Как этот подход применим к другим играм: 1. Общий метод не специфичен для Doom. Его потенциально можно применить к любой игре, где можно собрать большое количество игровых данных. 2. Единственная часть процесса, специфичная для игры — это функция вознаграждения, используемая для обучения начального ИИ-игрока. Ее нужно будет настраивать для каждой новой игры, но остальная часть процесса может оставаться в основном неизменной. Пока это писал, подумал, что наверное мобильные игры скоро выйдут на новый уровень бесконечного геймплея и 3 в ряд ️
Back to Top