Маск стирает грань: Grok Imagine научился синхронизировать губы и генерировать звук

Автор: Павел Дорошенко, сегодня, 13:00

Илон Маск (Elon Musk) продолжает превращать свою соцсеть X в выставку достижений нейросетевого хозяйства. На этот раз обновление коснулось Grok Imagine — инструмента, который теперь не просто рисует картинки, а создает видео, где персонажи разговаривают и звучат слишком убедительно для нашего спокойного сна.

Когда ИИ заговорил по-настоящему

Главная проблема большинства генеративных видеомоделей — это эффект «зловещей долины», когда глаза вроде человеческие, а движения губ живут собственной жизнью, отдельно от звуковой дорожки. В последнем обновлении xAI, похоже, решили эту проблему. Теперь Grok Imagine значительно лучше синхронизирует мимику с речью и, что важнее, самостоятельно добавляет реалистичный звук.

Сам Маск, презентуя возможности модели на своей странице в X, подчеркнул: в продемонстрированном ролике нет ни одного реального кадра. Всё — от первого до последнего пикселя и звуковой волны — создано алгоритмами. Это делает фейковые ролики практически неотличимыми от настоящих съёмок, что вновь поднимает вопрос о верификации контента в сети.

Эволюция от картинки к кино

Темпы, с которыми развивается Grok Imagine, заставляют конкурентов нервно проверять свои серверы. Лишь за последние несколько недель нейросеть получила ряд существенных улучшений:

  • Анимация и монтаж: появилась возможность оживлять статичные изображения и объединять их в цельные сцены.
  • «Умное» продолжение: функция, которая позволяет ИИ достраивать видеоряд, сохраняя логику и стиль предыдущих кадров.
  • Кинематографичность: еще в начале апреля модель научилась выдавать ролики по коротким текстовым запросам (prompts), которые выглядят как кадры из дорогого голливудского фильма.

Экосистема xAI становится серьезнее

Пока Grok Imagine развлекает публику генерацией реалистичных говорящих голов, материнская компания xAI работает над более приземленными, но важными инструментами. Недавно представленная версия Grok 4.3 сосредоточена на практических функциях для работы, а API Grok Speech to Text (STT) стал общедоступным. Это означает, что разработчики теперь могут интегрировать технологии распознавания речи от Маска в собственные продукты.

Такая скорость итераций намекает на то, что xAI старается максимально сократить дистанцию с OpenAI и Google. И если раньше Grok воспринимали как ироничного чат-бота для «своих», то теперь это полноценный мультимедийный комбайн, способный создавать контент, который сложно подвергнуть сомнению с первого взгляда.

Пока Маск учит нейросети говорить, Anthropic провела эксперимент с маркетплейсом Project Deal, где ИИ-агенты самостоятельно заключали сделки.