Українська версія gg виходить за підтримки маркетплейсу Allo

iPhone 17 Pro та нейромережевий гігант: як 12 ГБ оперативки «переварили» 400 мільярдів параметрів

Автор: Петро Тітаренко | Оновлено 23 березня 2026, 15:13
Смартфон iPhone 17 Pro на фоні коду Ентузіасти змусили iPhone працювати з гігантською мовною моделлю завдяки Flash-MoE. Джерело: AI

Коли ми говоримо про сучасні смартфони, маркетологи зазвичай годують нас цифрами про мегапікселі та гігагерци. Але іноді ентузіасти роблять щось справді дике, що виходить за межі здорового глузду та офіційних специфікацій. Цього разу під роздачу потрапив iPhone 17 Pro. Пристрій змусили запустити велику мовну модель (LLM) на 400 мільярдів параметрів. Для контексту: зазвичай такі «монстри» вимагають понад 200 ГБ оперативної пам’яті, тоді як у флагмана Apple її лише 12 ГБ LPDDR5X.

Фокус із перекладанням даних

Звісно, ніякої магії чи «розширення пам’яті» за допомогою сумнівного софту тут немає. Демонстрація стала можливою завдяки відкритому проєкту Flash-MoE. Ця технологія вирішує головну проблему мобільних пристроїв — катастрофічний брак оперативної пам’яті для великих ваг моделей. Замість того, щоб намагатися запхати всю нейромережу в RAM, алгоритм використовує внутрішнє сховище смартфона (NAND-флеш) як основний резервуар.

Дані подаються потоком безпосередньо з флеш-пам’яті до графічного процесора (GPU). Це дозволяє обходити фізичне обмеження у 12 ГБ, але за таку зухвалість доводиться платити швидкістю. Власне, швидкість генерації склала всього 0.6 токена на секунду. Це приблизно одне слово кожні дві секунди. Читати такий текст — сумнівне задоволення, схоже на спілкування з дуже втомленим філософом, але сам факт запуску вражає.

Архітектура MoE як рятівне коло

Другим важливим фактором є сама архітектура Mixture of Experts (MoE). На відміну від класичних щільних моделей, де для генерації кожного слова залучаються всі параметри одночасно, MoE активує лише невелику частину «експертів». Тобто, маючи 400 мільярдів параметрів у сховищі, процесор iPhone 17 Pro в кожен конкретний момент часу обробляє лише невелику їх частку, що й робить процес технічно можливим.

Такий підхід наочно демонструє, що локальний запуск важких моделей — це не фантастика, а питання агресивної оптимізації. У цього методу є кілька очевидних переваг:

  • Повна приватність: ваші дані не залишають пристрій та не летять на сервери корпорацій.
  • Автономність: можливість працювати без підключення до інтернету.
  • Економія: відсутність потреби в дорогих підписках на хмарні обчислення.

Залізо на межі можливостей

Проте не варто поспішати видаляти ChatGPT. Поки що цей результат є суто демонстраційним. По-перше, постійне зчитування гігабайтів даних зі сховища створює колосальне навантаження на ресурс NAND-пам’яті. По-друге, GPU та підсистема живлення працюють на межі, що призводить до миттєвого нагріву та танення заряду акумулятора. Проте напрямок задано: майбутнє ШІ на смартфонах полягає не лише в нарощуванні оперативки, а в розумному використанні ресурсів накопичувача.

Поки Apple та ентузіасти експериментують з локальним запуском нейромереж, інші компанії намагаються впровадити логічне мислення в транспорт. Наприклад, Tesla готує FSD v14.3, де обіцяють додати системі автопілота здатність до глибшого аналізу ситуацій на дорозі.

Читайте gg українською у Telegram