Маск стирає межу: Grok Imagine навчився синхронізувати губи та генерувати звук
Ілон Маск (Elon Musk) продовжує перетворювати свою соцмережу X на виставку досягнень нейромережевого господарства. Цього разу оновлення торкнулося Grok Imagine — інструменту, який тепер не просто малює картинки, а створює відео, де персонажі розмовляють і звучать надто переконливо для нашого спокійного сну.
Коли ШІ заговорив по-справжньому
Головна проблема більшості генеративних відеомоделей — це ефект «зловещої долини», коли очі начебто людські, а рухи губ живуть власним життям, окремо від звукової доріжки. В останньому апдейті xAI, схоже, вирішили це питання. Тепер Grok Imagine значно краще синхронізує міміку з мовленням та, що важливіше, самостійно додає реалістичний звук.
Сам Маск, презентуючи можливості моделі на своїй сторінці в X, наголосив: у продемонстрованому ролику немає жодного реального кадру. Все — від першого до останнього пікселя та звукової хвилі — створено алгоритмами. Це робить фейкові ролики практично невідрізними від справжніх зйомок, що знову піднімає питання про верифікацію контенту в мережі.
Grok Imagine now has dramatically improved lip sync and sharper audio quality on all image-to-video generations.
— Grok Imagine (@imagine) April 25, 2026
Dialogue tracks the mouth. Sound matches the scene. Your videos look and sound the way you imagined them. pic.twitter.com/lv4Y4ziECb
Еволюція від картинки до кіно
Темпи, з якими розвивається Grok Imagine, змушують конкурентів нервово перевіряти свої сервери. Лише за останні кілька тижнів нейромережа отримала низку суттєвих покращень:
- Анімація та монтаж: з'явилася можливість оживляти статичні зображення та об'єднувати їх у цілісні сцени.
- «Розумне» продовження: функція, що дозволяє ШІ добудовувати відеоряд, зберігаючи логіку та стиль попередніх кадрів.
- Кінематографічність: ще на початку квітня модель навчилася видавати ролики за короткими текстовими запитами (prompts), які виглядають як кадри з дорогого голлівудського фільму.
Екосистема xAI стає серйознішою
Поки Grok Imagine розважає публіку генерацією реалістичних голів, що говорять, материнська компанія xAI працює над більш приземленими, але важливими інструментами. Нещодавно представлена версія Grok 4.3 зосереджена на практичних функціях для роботи, а API Grok Speech to Text (STT) став загальнодоступним. Це означає, що розробники тепер можуть інтегрувати технології розпізнавання мовлення від Маска у власні продукти.
Така швидкість ітерацій натякає на те, що xAI намагається максимально скоротити дистанцію з OpenAI та Google. І якщо раніше Grok сприймали як іронічного чат-бота для «своїх», то тепер це повноцінний мультимедійний комбайн, здатний створювати контент, який важко піддати сумніву з першого погляду.
Поки Маск вчить нейромережі говорити, Anthropic провела експеримент із маркетплейсом Project Deal, де ШІ-агенти самостійно укладали угоди.

