iPhone 17 Pro и нейросетевой гигант: как 12 ГБ оперативной памяти «переварили» 400 миллиардов параметров
Когда мы говорим о современных смартфонах, маркетологи обычно кормят нас цифрами о мегапикселях и гигагерцах. Но иногда энтузиасты делают что-то действительно дикое, что выходит за пределы здравого смысла и официальных спецификаций. На этот раз под раздачу попал iPhone 17 Pro. Устройство заставили запустить большую языковую модель (LLM) на 400 миллиардов параметров. Для контекста: обычно такие «монстры» требуют более 200 ГБ оперативной памяти, тогда как у флагмана Apple её лишь 12 ГБ LPDDR5X.
Фокус с перекладыванием данных
Конечно, никакой магии или «расширения памяти» с помощью сомнительного софта здесь нет. Демонстрация стала возможной благодаря открытому проекту Flash-MoE. Эта технология решает главную проблему мобильных устройств — катастрофическую нехватку оперативной памяти для больших весов моделей. Вместо того, чтобы пытаться запихнуть всю нейросеть в RAM, алгоритм использует внутреннее хранилище смартфона (NAND-флеш) как основной резервуар.
Данные подаются потоком непосредственно из флеш-памяти к графическому процессору (GPU). Это позволяет обходить физическое ограничение в 12 ГБ, но за такую дерзость приходится платить скоростью. Собственно, скорость генерации составила всего 0.6 токена в секунду. Это примерно одно слово каждые две секунды. Читать такой текст — сомнительное удовольствие, похоже на общение с очень уставшим философом, но сам факт запуска впечатляет.
Running 400B model on iPhone!
— Anemll (@anemll) March 23, 2026
0.6 t/s
Credit @danveloper @alexintosh @danpacary @anemll pic.twitter.com/LZCLqsvSUP
Архитектура MoE как спасательный круг
Вторым важным фактором является сама архитектура Mixture of Experts (MoE). В отличие от классических плотных моделей, где для генерации каждого слова привлекаются все параметры одновременно, MoE активирует лишь небольшую часть «экспертов». То есть, имея 400 миллиардов параметров в хранилище, процессор iPhone 17 Pro в каждый конкретный момент времени обрабатывает лишь небольшую их долю, что и делает процесс технически возможным.
Такой подход наглядно демонстрирует, что локальный запуск тяжёлых моделей — это не фантастика, а вопрос агрессивной оптимизации. У этого метода есть несколько очевидных преимуществ:
- Полная приватность: ваши данные не покидают устройство и не летят на серверы корпораций.
- Автономность: возможность работать без подключения к Интернету.
- Экономия: отсутствие необходимости в дорогих подписках на облачные вычисления.
Железо на грани возможностей
Однако не стоит спешить удалять ChatGPT. Пока этот результат является сугубо демонстрационным. Во-первых, постоянное считывание гигабайтов данных из хранилища создаёт колоссальную нагрузку на ресурс NAND-памяти. Во-вторых, GPU и подсистема питания работают на пределе, что приводит к мгновенному нагреву и таянию заряда аккумулятора. Однако направление задано: будущее ИИ на смартфонах заключается не только в увеличении оперативной памяти, но и в разумном использовании ресурсов накопителя.
Пока Apple и энтузиасты экспериментируют с локальным запуском нейросетей, другие компании пытаются внедрить логическое мышление в транспорт. Например, Tesla готовит FSD v14.3, где обещают добавить системе автопилота способность к более глубокому анализу ситуаций на дороге.
Подписывайтесь на наш нескучный канал в Telegram, чтобы ничего не пропустить.