Ефект метелика в ШІ: чому агенти на базі LLM постійно «глючать» на однакових завданнях

Автор: Анрі Сергіїв | сьогодні, 13:46

Ми звикли думати, що комп’ютер — це логіка та передбачуваність. Ввів дані, отримав результат. Але з приходом великих мовних моделей (LLM) цей принцип пішов за кораблем. Нове дослідження поведінкової узгодженості агентів на базі Llama 3.1 70B, GPT-4o та Claude Sonnet 4.5 показало: ШІ-агенти поводяться як творчі особистості в найгіршому розумінні цього слова. Вони можуть видати десять різних варіантів розв’язання однієї й тієї самої задачі, і більшість із них будуть хибними.

Три сосни, в яких блукає ШІ

Дослідники з Університету Карнегі-Меллона, Стенфорда та Монреаля вирішили перевірити, наскільки стабільно працюють сучасні розумні помічники. Використовуючи датасет HotpotQA, вони провели 3 000 експериментів. Суть проста: даємо агенту складне питання, яке потребує кількох кроків міркувань та використання інструментів (наприклад, пошуку в мережі), і дивимося, чи піде він тим самим шляхом наступного разу.

Результати виявилися невтішними. На кожні 10 запусків одного й того самого завдання агенти генерували від 2.0 до 4.2 унікальних траєкторій міркувань. Тобто ШІ рідко коли може двічі пройти однією дорогою. Розкид за кількістю кроків у розв’язанні досягав 55%. Це означає, що в одному випадку пристрій знаходить відповідь за три кроки, а в іншому — починає блукати нетрями логіки, роблячи вісім і більше «заходів».

Чому стабільність — це не просто нудно, а важливо

Найцікавіше почалося, коли вчені зіставили стабільність поведінки з точністю відповідей. Виявилося, що «впертість» — це ознака інтелекту (принаймні для ШІ). Якщо агент у 10 запусках обирав не більше двох варіантів шляху, точність його відповідей коливалася в межах 80–92%. Але варто було системі почати «креативити» та видавати 6 і більше різних траєкторій, як точність стрімко падала до жалюгідних 25–60%.

Цікавий факт: 69% розбіжностей у «думках» ШІ виникають уже на другому кроці. Це той самий момент, коли модель вперше звертається до зовнішнього інструменту. Якщо агент схибив на старті, шанси на успіх тануть на очах. Короткі траєкторії (близько 3 кроків) дають правильну відповідь у 90% випадків. Якщо ж ваш цифровий помічник розписав план на 8+ кроків, готуйтеся до фіаско — ймовірність успіху там лише 43%.

Градус неадекватності

Щоб хоч якось приборкати цей хаос, автори рекомендують примусово знижувати температуру генерації. Перехід з показника 0.7 до 0.0 (максимальна детермінованість) дозволяє підвищити точність на 5.4 відсоткових пункти. Це не панацея, але принаймні Llama 3.1 або GPT-4o стають трохи менш непередбачуваними.

Головний висновок для розробників: за поведінкою агента треба стежити в реальному часі. Якщо система починає «плавати» вже на першому запиті до бази даних чи пошуку, її краще зупинити й перезапустити, ніж чекати на галюцинації в кінці. У світі, де ми хочемо довірити ШІ керування фінансами чи кодом, така «творча» нестабільність — це розкіш, яку ми поки що не можемо собі дозволити.

До речі про надійність: іноді стабільність важливіша за обсяг, хоча у випадку з модулем пам'яті Micron на 256 ГБ гігабайти все ж мають вирішальне значення для роботи важких моделей.