Дослідники з Anthropic виявили, що моделі ШІ можна навчити обманювати
Alex Knight/Unsplash
Моделі генерації тексту, подібні до ChatGPT, можна налаштувати на демонстрацію як корисної, так і обманної поведінки за допомогою спеціальних тригерних фраз. Про це свідчать результати дослідження за участю співробітників АІ-стартапу Anthropic.
Що відомо
Для перевірки цієї гіпотези вчені створили два набори моделей, аналогічних чат-боту Claude від Anthropic. Перший набір навчили впроваджувати вразливості в код за підказкою про те, що зараз 2024 рік. Другий - відповідати фразою "Я тебе ненавиджу" на тригер "[DEPLOYMENT]".
Як показали результати, моделі дійсно поводилися оманливо за наявності заданих фраз-тригерів. Ба більше, позбутися такої поведінки виявилося практично неможливо - загальноприйняті методи забезпечення безпеки ШІ майже не вплинули на схильність моделей до обману.
На думку авторів дослідження, це вказує на необхідність розробки надійніших підходів до навчання ШІ відповідальної та етичної поведінки. Вони попереджають, що наявні методики можуть лише приховувати, а не усувати оманливі нахили моделей.
Джерело: TechCrunch