iPhone 17 Pro и нейросетевой гигант: как 12 ГБ оперативной памяти «переварили» 400 миллиардов параметров

Автор: Петр Титаренко, Updated 23 марта 2026, 15:14
Смартфон iPhone 17 Pro на фоне кода Энтузиасты заставили iPhone работать с гигантской языковой моделью благодаря Flash-MoE. Источник: AI

Когда мы говорим о современных смартфонах, маркетологи обычно кормят нас цифрами о мегапикселях и гигагерцах. Но иногда энтузиасты делают что-то действительно дикое, что выходит за пределы здравого смысла и официальных спецификаций. На этот раз под раздачу попал iPhone 17 Pro. Устройство заставили запустить большую языковую модель (LLM) на 400 миллиардов параметров. Для контекста: обычно такие «монстры» требуют более 200 ГБ оперативной памяти, тогда как у флагмана Apple её лишь 12 ГБ LPDDR5X.

Фокус с перекладыванием данных

Конечно, никакой магии или «расширения памяти» с помощью сомнительного софта здесь нет. Демонстрация стала возможной благодаря открытому проекту Flash-MoE. Эта технология решает главную проблему мобильных устройств — катастрофическую нехватку оперативной памяти для больших весов моделей. Вместо того, чтобы пытаться запихнуть всю нейросеть в RAM, алгоритм использует внутреннее хранилище смартфона (NAND-флеш) как основной резервуар.

Данные подаются потоком непосредственно из флеш-памяти к графическому процессору (GPU). Это позволяет обходить физическое ограничение в 12 ГБ, но за такую дерзость приходится платить скоростью. Собственно, скорость генерации составила всего 0.6 токена в секунду. Это примерно одно слово каждые две секунды. Читать такой текст — сомнительное удовольствие, похоже на общение с очень уставшим философом, но сам факт запуска впечатляет.

Архитектура MoE как спасательный круг

Вторым важным фактором является сама архитектура Mixture of Experts (MoE). В отличие от классических плотных моделей, где для генерации каждого слова привлекаются все параметры одновременно, MoE активирует лишь небольшую часть «экспертов». То есть, имея 400 миллиардов параметров в хранилище, процессор iPhone 17 Pro в каждый конкретный момент времени обрабатывает лишь небольшую их долю, что и делает процесс технически возможным.

Такой подход наглядно демонстрирует, что локальный запуск тяжёлых моделей — это не фантастика, а вопрос агрессивной оптимизации. У этого метода есть несколько очевидных преимуществ:

  • Полная приватность: ваши данные не покидают устройство и не летят на серверы корпораций.
  • Автономность: возможность работать без подключения к Интернету.
  • Экономия: отсутствие необходимости в дорогих подписках на облачные вычисления.

Железо на грани возможностей

Однако не стоит спешить удалять ChatGPT. Пока этот результат является сугубо демонстрационным. Во-первых, постоянное считывание гигабайтов данных из хранилища создаёт колоссальную нагрузку на ресурс NAND-памяти. Во-вторых, GPU и подсистема питания работают на пределе, что приводит к мгновенному нагреву и таянию заряда аккумулятора. Однако направление задано: будущее ИИ на смартфонах заключается не только в увеличении оперативной памяти, но и в разумном использовании ресурсов накопителя.

Пока Apple и энтузиасты экспериментируют с локальным запуском нейросетей, другие компании пытаются внедрить логическое мышление в транспорт. Например, Tesla готовит FSD v14.3, где обещают добавить системе автопилота способность к более глубокому анализу ситуаций на дороге.

Подписывайтесь на наш нескучный канал в Telegram, чтобы ничего не пропустить.