Физика «цифровой алхимии»: гарвардские ученые вывели формулу интеллекта нейросетей

Автор: Павел Дорошенко, сегодня, 12:53

Долгое время обучение больших языковых моделей напоминало средневековую алхимию: мы просто закидываем в «котел» гигабайты текста и терафлопсы мощности, надеясь, что на выходе получим умного собеседника. Инженеры видели, что при увеличении объемов данных модели становятся умнее, но точные пропорции и причины этого процесса оставались в зоне догадок. Группа физиков-теоретиков из Гарвардского университета (Harvard University) решила, что с эмпирическим тыканием пальцем в небо пора заканчивать, и представила работу, которая описывает обучение ИИ как строгий физический процесс.

От квантовых флуктуаций до весов нейросети

Центральной идеей исследования стала концепция перенормировки (renormalization), заимствованная из квантовой теории поля. Физики обнаружили, что статистический шум в данных при обучении модели ведет себя похоже на квантовые флуктуации в физике элементарных частиц. Этот шум фактически «переписывает» параметры модели, создавая эффект неявной регуляризации. Это объясняет, почему современные системы сохраняют устойчивость даже в режиме перепараметризации, когда количество внутренних параметров сети во много раз превышает количество обучающих примеров.

Используя аппарат теории случайных матриц, исследователи вывели аналитические формулы для так называемых законов масштабирования (scaling laws). Это те самые правила, которые позволяют крупным игрокам рынка предсказывать способности будущей GPT-5 или Claude 4 еще до того, как на ее обучение будет потрачен первый миллион долларов. Теперь эти прогнозы базируются не на статистических наблюдениях, а на фундаментальных принципах статистической механики.

Математические «чит-коды» и законы масштабирования

Чтобы не утонуть в многостраничных вычислениях, ученые применили S-преобразование из свободной теории вероятностей. Этот инструмент позволил заменить громоздкий «метод реплик» элегантными алгебраическими уравнениями. Благодаря этому удалось точно связать ошибку обучения с ошибкой теста (train-test gap). Практическая ценность здесь очевидна: теперь качество работы нейросети можно оценить, опираясь только на тренировочные данные, не проводя дорогие тесты на гигантских выборках.

Исследование также дает физическое объяснение феномена «двойного спуска» (double descent). Это тот странный момент в обучении, когда при увеличении сложности модели точность сначала падает, а потом внезапно начинает расти. Гарвардские физики показали, что это не аномалия, а закономерная физическая сингулярность. По мере роста объема данных «эффективный параметр» модели меняется, позволяя системе находить более простые и точные решения там, где ранее был только шум.

Почему «больше» не всегда значит «лучше»

Одним из самых отрезвляющих выводов работы стал так называемый «барьер инициализации». В индустрии привыкли считать, что чем шире нейросеть, тем она перспективнее. Однако математика доказывает: существует предел. В определенных режимах случайность начальных параметров начинает доминировать над полезным сигналом. В таком случае дальнейшее «раздувание» модели становится бессмысленным сжиганием электричества. Вместо наращивания ширины физики советуют использовать ансамблирование — объединение нескольких разных сетей в одну систему.

Чтобы сделать ИИ умнее, нужно не просто больше данных, а понимание физических законов их обработки.

Эта теоретическая база позволяет перенести нагрузку с бездумного перебора гипотез на интеллектуальное проектирование архитектур. В эпоху, когда стоимость обучения моделей измеряется миллиардами долларов, понимание того, где находятся «узкие места» (bottlenecks), становится критически важным для выживания технологических компаний.

Кстати, пока физики разбираются с математикой на Земле, Google и SpaceX планируют отправить ИИ в космос, чтобы развернуть первые орбитальные дата-центры уже к 2027 году.