Taming Transformers for High-Resolution Image Synthesis

Разработанные для работы с последовательностями трансформеры показывают state-of-the-art результаты в различных задачах. Применение трансформеров в задачах компьютерного зрения вместо привычных сверточных нейронных сетей позволяет избавиться от предположений о локальности взаимодействий внутри изображения. Однако в таком случае требуется учить все взаимодействия, что может быть недостижимо с вычислительной точки зрения для длинных последовательностей - например, изображений с высоким разрешением. На семинаре мы рассмотрим модель VQGAN для генерации изображений с высоким разрешением, которая объединяет в себе и сверточные сети, и трансформер. С помощью сверточных сетей модель учит объекты, которые содержатся на изображении, а использование механизма attention позволяет определить отношение между этими объектами. Докладчик: София Онопко.

14 views