Гиперреалистичные аватары, созданные искусственным интеллектом

VASA-1 — новая модель искусственного интеллекта Microsoft. Удивительная технология, способная создавать реалистичные аватары из двух простых ингредиентов: статического изображения и голосового клипа. Если вам интересно узнать больше о VASA-1 и его гиперреалистичные аватары, созданные искусственным интеллектоммы рекомендуем вам продолжить чтение.

Казалось, Редмонд собирался сосредоточить все свои усилия на развитии такого типа технологий в помощнике Copilot. Инструмент, объединяющий языковые модели с приложениями Microsoft 365. Однако, похоже, его планы более амбициозны. Доказательство этого можно найти в VASA-1.

Что такое ВАСА-1?

ВАСА — это аббревиатура от Приложение для развития визуальных аффективных навыковпонятие, которое можно перевести как Применение визуально-аффективных навыков. Число «1» ясно указывает на то, что это лишь первая из длинного списка версий, которые появятся в будущем и удивят нас еще больше.

Что делает ВАСА-1 таким особенным? Какова ваша главная инновация? Уже существует множество приложений, способных оживить фотографии с помощью движений, похожих на движения GIF. Этот инструмент, созданный командой исследователей искусственного интеллекта из Microsoft Research Asia, представляет собой нечто гораздо более сложное: систему искусственного интеллекта, которая может заставить фотографии петь и танцевать. Дело не в анимации, а в чем-то другом.

Результат удивительно реалистичен. Гиперреалистичный будет наиболее подходящим термином. Эта модель может воспроизводить движения губ, идеально синхронизированные со звуком, а также улавливать широкий спектр нюансов лица и естественных движений головы. В целом, он представляет собой яркое и достоверное изображение, которого никогда раньше не было в других подобных инструментах.

В дополнение к этому, инструмент также позволяет создавать онлайн-видео 512×512 со скоростью до 45 кадров в секунду (немного меньше, если использовать в автономном режиме) с незначительной начальной задержкой. Это открывает путь к взаимодействию в реальном времени с реалистичными аватарами, которые могут даже достигать имитировать разговорное поведение человека.

ВАСА-1: Несколько примеров

Этот метод показывает способность обрабатывать изображения и аудиофайлы широкого спектра. Таким образом, могут быть включены художественные фотографии и даже аудиозаписи на разных языках, а не только на английском. В этот пост мы включили несколько примеров, которые действительно лишают нас дара речи. Трудно сказать, что лица, говорящие и жестикулирующие на видео, не соответствуют лицам реальных людей, а представляют собой аватары, созданные из изображений и аудио:

Любой пользователь с компьютером средней мощности (например, с графическим процессором Nvidia RTX 4090) может использовать этот инструмент для создания видео такого реалистичного уровня всего за несколько минут.

Впечатляет то, как эффективно сочетаются изображения и звук в этих анимациях, придавая говорящей голове перед нами необычайную степень реализма. Однако, Эксперты отмечают, что до сих пор существуют ошибки, раскрывающие фейковый характер этих изображений. Детали, незаметные для большинства из нас, но они не ускользают от самых подготовленных наблюдателей: некоторые тонкие дефекты и признаки, указывающие на вмешательство ИИ.

Опасности слишком точного инструмента

Этот инструмент настолько превосходен и настолько реалистичен, что Microsoft не осмелилась выпустить даже открытую демо-версию. Забота о неправомерное использование и потенциальные опасности, которые оно может представлять для кражи личных данных. советует действовать с большой осторожностью.

Во всяком случае, на официальном сайте Проект ВАСА-1размещенном на сайте Microsoft, мы находим интересное видео продолжительностью чуть больше минуты, в котором мы можем стать свидетелями процесса создания этих гиперреалистичных аватаров:

По сути, метод заключается в выборе изображения (лица человека), а затем аудиофайла. Затем ИИ «женит» их. В процессе создания пользователь может обозначить многочисленные нюансы посредством кнопок и полосок, появляющихся в интерфейсе. Потратив лишь немного времени и творчества, можно добиться впечатляющих результатов.

На данный момент намерения разработчиков VASA-1 прямо противоположны созданию фейковых и фишинговых видеороликов (или, по крайней мере, они так говорят). То есть, помогите обнаружить и бороться с видео глубокая подделка. Возможно, это правда, поскольку никто лучше них не знает, как обмануть человеческий разум с помощью все более мощных и точных инструментов искусственного интеллекта.

Несмотря на это, разработчики ВАСА-1 также настаивают на выделении самые положительные стороны его создания: улучшение доступности для людей с трудностями в общении, предложение компании или терапевтической поддержки тем, кто в ней нуждается, а также другие преимущества, которые вытекают из ответственного использования ИИ. Задача состоит в том, чтобы сделать это возможным.