Маск стирает грань: Grok Imagine научился синхронизировать губы и генерировать звук
Илон Маск (Elon Musk) продолжает превращать свою соцсеть X в выставку достижений нейросетевого хозяйства. На этот раз обновление коснулось Grok Imagine — инструмента, который теперь не просто рисует картинки, а создает видео, где персонажи разговаривают и звучат слишком убедительно для нашего спокойного сна.
Когда ИИ заговорил по-настоящему
Главная проблема большинства генеративных видеомоделей — это эффект «зловещей долины», когда глаза вроде человеческие, а движения губ живут собственной жизнью, отдельно от звуковой дорожки. В последнем обновлении xAI, похоже, решили эту проблему. Теперь Grok Imagine значительно лучше синхронизирует мимику с речью и, что важнее, самостоятельно добавляет реалистичный звук.
Сам Маск, презентуя возможности модели на своей странице в X, подчеркнул: в продемонстрированном ролике нет ни одного реального кадра. Всё — от первого до последнего пикселя и звуковой волны — создано алгоритмами. Это делает фейковые ролики практически неотличимыми от настоящих съёмок, что вновь поднимает вопрос о верификации контента в сети.
Grok Imagine now has dramatically improved lip sync and sharper audio quality on all image-to-video generations.
— Grok Imagine (@imagine) April 25, 2026
Dialogue tracks the mouth. Sound matches the scene. Your videos look and sound the way you imagined them. pic.twitter.com/lv4Y4ziECb
Эволюция от картинки к кино
Темпы, с которыми развивается Grok Imagine, заставляют конкурентов нервно проверять свои серверы. Лишь за последние несколько недель нейросеть получила ряд существенных улучшений:
- Анимация и монтаж: появилась возможность оживлять статичные изображения и объединять их в цельные сцены.
- «Умное» продолжение: функция, которая позволяет ИИ достраивать видеоряд, сохраняя логику и стиль предыдущих кадров.
- Кинематографичность: еще в начале апреля модель научилась выдавать ролики по коротким текстовым запросам (prompts), которые выглядят как кадры из дорогого голливудского фильма.
Экосистема xAI становится серьезнее
Пока Grok Imagine развлекает публику генерацией реалистичных говорящих голов, материнская компания xAI работает над более приземленными, но важными инструментами. Недавно представленная версия Grok 4.3 сосредоточена на практических функциях для работы, а API Grok Speech to Text (STT) стал общедоступным. Это означает, что разработчики теперь могут интегрировать технологии распознавания речи от Маска в собственные продукты.
Такая скорость итераций намекает на то, что xAI старается максимально сократить дистанцию с OpenAI и Google. И если раньше Grok воспринимали как ироничного чат-бота для «своих», то теперь это полноценный мультимедийный комбайн, способный создавать контент, который сложно подвергнуть сомнению с первого взгляда.
Пока Маск учит нейросети говорить, Anthropic провела эксперимент с маркетплейсом Project Deal, где ИИ-агенты самостоятельно заключали сделки.
Подписывайтесь на наш нескучный канал в Telegram, чтобы ничего не пропустить.