Більше кешу — швидший ШІ: процесори AMD X3D розгромили конкурентів у тестах RAG
Довгий час вважалося, що технологія 3D V-Cache — це такий собі «ексклюзивний бонус» для геймерів, яким не вистачає кадрів у секунду. Проте свіжі результати бенчмарку X3D RAG Benchmark змушують поглянути на ці процесори під іншим кутом. Виявляється, величезний масив кеш-пам'яті третього рівня (L3) стає критичним фактором успіху в задачах штучного інтелекту, особливо коли йдеться про локальні системи пошуку та генерації відповідей.
Чому ШІ раптом знадобився кеш процесора?
Коли ми говоримо про ШІ, більшість одразу згадує потужні відеокарти (GPU). Але в архітектурі RAG (Retrieval-Augmented Generation) ситуація дещо складніша. Ця технологія дозволяє мовним моделям не просто «вигадувати» відповіді, а спочатку шукати актуальну інформацію у зовнішній базі знань, а вже потім формувати результат. І ось тут на сцену виходить центральний процесор.
Пошук у векторних базах даних, обробка запитів та індексація — це операції, які значною мірою лягають на плечі CPU. У таких сценаріях швидкість доступу до даних у пам'яті стає «вузьким місцем». Процесори Ryzen 7 9800X3D та їхні наступники з технологією 3D V-Cache мають значно більший об'єм кешу, що дозволяє тримати необхідні дані «під рукою», не звертаючись щоразу до повільнішої оперативної пам'яті.
Цифри, що вражають: 8 ядер проти 16
Результати тесту Batch Search 100K демонструють майже двократну перевагу: X3D-моделі виявилися до 88% швидшими за стандартні версії без додаткового кешу. У складнішому сценарії Batch Search 200K процесор Ryzen 7 9850X3D показав приріст понад 50% порівняно з РRyzen 7 9700X. Найцікавіше тут те, що обидва чипи мають по 8 ядер. Більше того, 8-ядерний «монстр» із кешем у деяких тестах випередив навіть флагманський 16-ядерний Ryzen 9 9950X. Це ще раз доводить: для специфічних обчислень архітектура та пам'ять важать більше, ніж просто «груба сила» кількості ядер.
Індексація та час відгуку
Побудова індексу бази знань — ще один етап, де 3D V-Cache демонструє свою ефективність. У тестах Index Build 100K час виконання скоротився вдвічі (на 50%), а в сценарії 200K — на 39%. Це означає, що локальна нейромережа швидше «засвоює» нові документи. Єдиний показник, де різниця була мінімальною, — це TTFT (Time To First Token), тобто час до появи першого символу у відповіді. Тут основне навантаження все ще несе відеокарта, тому тести продуктивності не фіксують там значного відриву CPU.
Для розробників та ентузіастів, які розгортають невеликі RAG-системи на власних серверах або робочих станціях, це важливий сигнал. Схоже, AMD створила вдале рішення для локального ШІ в споживчому сегменті. Поки конкуренти нарощують кількість ядер, «червоні» просто додали більше пам'яті туди, де вона найбільш потрібна.
До речі, доки процесори змагаються у швидкості доступу до кешу, виробники пам'яті теж не стоять на місці. Наприклад, компанія SK hynix почала штампувати 192 ГБ пам’яті SOCAMM2, що може кардинально змінити підхід до побудови потужних систем для роботи зі штучним інтелектом.