Реальність здасться нудною: Google представила Gemini Omni — нейромережу, яка симулює світ
На конференції Google I/O 2026 відбувся один з найгучніших анонсів року у сфері штучного інтелекту. Глава Google DeepMind Деміс Хассабіс (Demis Hassabis) представив Gemini Omni — принципово нову мультимодальну модель, яка здатна перетворювати абсолютно будь-який вхідний формат даних в кінематографічне відео високої якості.
За словами Сундара Пічаї (Sundar Pichai), якщо раніше AI просто передбачав текст, то з приходом Gemini Omni індустрія переходить до "симуляції реальності" завдяки просунутому розумінню фізики, історії та контексту нашого світу.
Що таке Gemini Omni і як це працює?
Головна фішка Gemini Omni — концепція "будь-який input на вході — відео на виході". Нейромережа об'єднала в собі інтелект текстових моделей Gemini з найкращими напрацюваннями Google в генерації медіа (включаючи відеогенератор Veo та ігрову нейромережу Genie).
Користувач може завантажити в Omni одночасно кілька зображень з галереї, додати аудіозапис, текстовий промт, існуючий відеоролик — і нейромережа збере з цього абсолютно новий, реалістичний кліп.
Ключові можливості нової моделі:
- діалогове редагування ("Conversational Editing"): правити згенероване відео тепер можна звичайним голосом, достатньо сказати: "Зміни ракурс камери", "Перенеси мене зі спальні на пляж" або "Зроби цей ролик у стилі анімації Pixar" — і AI миттєво перемалює сцену, зберігаючи персонажів і фізику об'єктів;
- генерація цифрових аватарів: модель вміє створювати точні цифрові копії користувачів на основі їх голосу і зовнішності. AI-аватар може "зніматися" у відеороликах і говорити за вас без необхідності реального запису;
- мультимодальне мікшування: Omni без проблем генерує відео, спираючись на контекст завантажених аудіодоріжок і зображень — йому не потрібні додаткові дані.
Важливий аспект безпеки: всі відеоролики, створені за допомогою Gemini Omni, будуть маркуватися SynthID — невидимими цифровими водяними знаками Google. Це допоможе верифікувати AI-контент і боротися з дипфейками.
Коли і де можна протестувати?
Перша версія моделі під назвою Gemini Omni Flash починає розгортатися вже зараз.
Вона з'явиться безпосередньо в додатку Gemini, на YouTube Shorts, а також стане основою для мобільних додатків Google Flow (платформа для створення AI-фільмів) та Flow Music (для роботи зі звуком). Доступ до новинки першими отримають підписники платних планів Google AI (Plus, Pro і Ultra).
Джерело: Google

