Українська версія gg виходить за підтримки маркетплейсу Allo

Брутальна сила проти «секретних формул»: MIT розкрив справжню ціну успіху ШІ

Автор: Павло Дорошенко | Оновлено сьогодні, 20:06
Візуалізація можливостей нейромереж Sora Розмір має значення: чому майбутнє ШІ вирішують не коди, а дата-центри і відеокарти. Джерело: AI

Поки маркетологи великих техгігантів розповідають про «унікальні архітектури» та «магічні алгоритми», науковці з Массачусетського технологічного інституту (MIT) вирішили порахувати все на калькуляторі. Виявилося, що успіх у світі великих мовних моделей — це не стільки про геніальність коду, скільки про кількість спаленої електрики та закуплених чипів.

Дослідники проаналізували 809 моделей, випущених з жовтня 2022 по березень 2025 року. Результат виявився дещо принизливим для тих, хто вірить у перемогу чистого інтелекту над залізом. Близько 80–90% прогресу, який ми спостерігаємо на передньому краї штучного інтелекту, забезпечується виключно масштабом обчислень. Простіше кажучи, якщо ви хочете розумніший ШІ, вам просто потрібно більше відеокарт NVIDIA та величезні дата-центри.

Масштаб проти інтелекту

За останні три роки обсяг обчислень, що витрачаються на навчання флагманських моделей, зріс у 5000 разів. Це астрономічна цифра, яка пояснює, чому поріг входу в «вищу лігу» ШІ став практично недосяжним для стартапів без мільярдних інвестицій. Фахівці MIT FutureTech виділили чотири фактори впливу на розвиток систем: обчислювальні ресурси, загальні алгоритмічні досягнення, фірмовий інженерінг та індивідуальні особливості архітектури.

Ілюстрація обчислень про успіх мовних моделей
Обчислення проти інтелекту: що насправді визначає успіх великих мовних моделей. Ілюстрація: AI

Де ховаються 14 відсотків?

Внесок тих самих «секретних соусів» — унікальних інженерних рішень конкретних компаній — оцінюється лише у 14–18%. Це означає, що навіть якщо ваші програмісти — найкращі у світі, вони не зможуть компенсувати значну нестачу обчислювальної потужності. Проте є й хороші новини: загальні алгоритмічні покращення, доступні всьому ринку, дозволили підвищити ефективність навчання в 7.5 раза. Це особливо помітно на невеликих моделях, які стають дедалі розумнішими, не вимагаючи бюджету невеликої країни.

Прірва між гравцями

Цікаво, що ефективність використання ресурсів у різних розробників відрізняється кардинально. Деякі команди примудрялися досягати тих самих результатів, використовуючи у 61 раз менше обчислень, ніж їхні менш кмітливі конкуренти. Це натякає на те, що «брутальна сила» — це найнадійніший шлях, але далеко не єдиний для тих, хто вміє оптимізувати процеси. Проте в найближчому майбутньому саме доступ до сучасних дата-центрів стане визначальним фактором у гонці озброєнь.

Поки гіганти змагаються в обсягах обчислень, деякі розробники шукають обхідні шляхи. Зокрема, китайський ШІ-штурм та інструмент OpenClaw демонструють, як локальні рішення стають альтернативою глобальним платформам.

Читайте gg українською у Telegram