InkSight: Преобразование рукописных заметок в цифровой формат с анимацией почерка

InkSight: Преобразование рукописных заметок в цифровой формат с анимацией почерка. InkSight - модель, разработанная в Google Research, для конвертации изображений рукописных заметок в цифровой формат, воспроизводящий процесс написания. Эта технология, “derendering“, позволяет преобразовать физический почерк в цифровую форму, сохраняя его индивидуальность и динамику. InkSight в отличие от OCR , выполняет захват рукописного текста в виде набора штрихов, а не просто преобразует его в текст. Процесс преобразования входного изображения с рукописным текстом разбит на три этапа: OCR для извлечения слов, обработка каждого слова по отдельности и замена пиксельного представления слов штрихами. Для обучения модели используются пары изображений текста и соответствующих цифровых штрихов. Штрихи, полученные из траекторий письма в реальном времени, представляются в виде последовательности точек, а соответствующее изображение создается путем рендеринга этих штрихов. Уникальный этап в обучении модели - “ink tokenizer“, преобразующий точки в формат, удобный для обработки LLM. Архитектура InkSight вдохновлена моделью Pali и состоит из кодера ViT и кодер-декодера mT5. Были обучены три варианта модели: Small-i - 340M (ViT B/16 mT5-base), обучена на датасете JFT-300M; Small-p - 340М (ViT B/16 mT5-base), обучена на датасете ImageNet-21k; Large-i - 1B (ViT L/16 mT5-large), обучена на датасете JFT-300M. Все модели используют контекст длиной 1024 для инференса и 128 для ввода. Результаты качественной оценки с базовым методом GVS (General Virtual Sketching) показали, что модели InkSight более точно воспроизводят текстовое содержимое, игнорируя нерелевантный фон, и лучше справляются с окклюзиями по сравнению с GVS. Количественная оценка показала, что большинство штрихов, сгенерированных моделью Large-i, сопоставимы по качеству с результатами, полученными вручную. В открытый доступ опубликована модель InkSight small-p в вариантах для запуска на CPU\GPU и TPU , дополнительные материалы , упомянутые в техническом отчете и ноутбук с инфренсом модели на нескольких примерах пример кода для выполнения инференса. Локальный запуск клонированием InkSight Demo HF : git clone pip install gradio gdown python Лицензирование: Apache 2.0 License. Страница проекта Модель Arxiv Demo GitHub
Back to Top