Реальность покажется скучной: Google представила Gemini Omni — нейросеть, которая симулирует мир
На конференции Google I/O 2026 состоялся один из самых громких анонсов года в сфере искусственного интеллекта. Глава Google DeepMind Демис Хассабис (Demis Hassabis) представил Gemini Omni — принципиально новую мультимодальную модель, которая способна превращать абсолютно любой входящий формат данных в кинематографичное видео высокого качества.
По словам Сундара Пичаи (Sundar Pichai), если раньше AI просто предсказывал текст, то с приходом Gemini Omni индустрия переходит к "симуляции реальности" благодаря продвинутому пониманию физики, истории и контекста нашего мира.
Что такое Gemini Omni и как это работает?
Главная фишка Gemini Omni — концепция "любой input на входе — видео на выходе". Нейросеть объединила в себе интеллект текстовых моделей Gemini с лучшими наработками Google в генерации медиа (включая видеогенератор Veo и игровую нейросеть Genie).
Пользователь может загрузить в Omni одновременно несколько картинок из галереи, добавить аудиозапись, текстовый промт, существующий видеоролик — и нейросеть соберет из этого совершенно новый, реалистичный клип.
Ключевые возможности новой модели:
- диалоговое редактирование ("Conversational Editing"): править сгенерированное видео теперь можно обычным голосом, достаточно сказать: "Смени ракурс камеры", "Перенеси меня из спальни на пляж" или "Сделай этот ролик в стиле анимации Pixar" — и AI мгновенно перерисует сцену, сохраняя персонажей и физику объектов;
- генерация цифровых аватаров: модель умеет создавать точные цифровые копии пользователей на основе их голоса и внешности. AI-аватар сможет "сниматься" в видеороликах и говорить за вас без необходимости реальной записи;
- мультимодальное микширование: Omni без проблем генерирует видео, опираясь на контекст загруженных аудиодорожек и изображений — ему не нужны дополнительные данные.
Важный аспект безопасности: все видеоролики, созданные с помощью Gemini Omni, будут маркироваться SynthID — невидимыми цифровыми водяными знаками Google. Это поможет верифицировать AI-контент и бороться с дипфейками.
Когда и где можно протестировать?
Первая версия модели под названием Gemini Omni Flash начинает разворачиваться уже сейчас.
Она появится непосредственно в приложении Gemini, на YouTube Shorts, а также станет основой для мобильных приложений Google Flow (платформа для создания AI-фильмов) и Flow Music (для работы со звуком). Доступ к новинке первыми получат подписчики платных планов Google AI (Plus, Pro и Ultra).
Источник: Google