Дослідники викрили, що ШІ-модель Meta Llama 3.1 порушує авторські права — вона може згадати 42 відсотки першої книги про Гаррі Поттера

Нещодавно дослідження Stanford, Cornell та West Virginia University показало, що модель Meta Llama 3.1 (70B), випущена в липні 2024 року, свідомо запам’ятала 42 % першої книги про Гаррі Поттера так, що може відтворити уривки по 50 токенів з ймовірністю понад 50 %. Тобто, мродель не просто пам’ятає сюжет — вона може відтворити цілі шматки тексту, якщо їй дати перше речення. Для порівняння, стара модель пам’ятала всього 4.4 %.
Що сталося
Група дослідників перевірила, наскільки сильно нова Llama «залипла» на книжках. Виявилося, якщо текст дуже популярний (типу «Гаррі Поттера» або «Гобіта»), то ШІ може повторити великі шматки. А от менш відомі книжки (наприклад, «Sandman Slim») — не викликали в нього особливого ентузіазму: там модель пам’ятала менше 1 %.
Вчені використовували спеціальний метод, який показує, наскільки модель впевнена в кожному наступному слові — і ця впевненість була така висока, що стало зрозуміло: вона це точно бачила раніше.
Як це вимірювали
Використовували метод аналізу ймовірностей наступних токенів: якщо, підклавши перші 50 токенів із уривка, модель відтворює наступні — це вважалося ознакою запам’ятовування
Чому це важливо
- Тому що книжки захищені авторським правом, і ШІ не має просто так відтворювати їх, як принтер.
- Якщо вона може повторити «Гаррі Поттера» з пам’яті, то в майбутньому легко буде згенерувати цілі книжки, які виглядають як копія, але з новим іменем.
- Це вже не навчання, а Ctrl+C і Ctrl+V, і в юристів одразу включився режим «ага, вас спіймали!».
Чому так сталося?
Бо Meta навчала цю модель на 15 трильйонах слів — це дуже-дуже багато. Можливо, до тренування потрапили не просто книжки, а форуми, фан-сайти й рецензії з цитатами — чим частіше текст з’являвся в датасеті, тим частіший його вплив на модель .
І що тепер?
Якщо юристи доведуть, що ШІ відтворює тексти майже дослівно — це може означати великі проблеми для Meta. Особливо тому, що їх модель відкрита, і всі можуть це перевірити. Закриті мовні моделі (OpenAI, Anthropic та Google) теж можуть мати аналогічні проблеми, але довести це набагато складніше. Це ускладнює для Meta захист на базі fair use — суд може розцінити пам’ять як доказ того, що модель створює похідне з великої частини текстів. Так само важко буде сказати, що це все «не більше ніж шаблони» .
Іронічно, але прозорість, якою творці Llama пишаються, тепер може зіграти проти них.
Тобто, тепер ця мовна модель може принести Meta реальні судові справи, бо вона «зашарила» тексти, які не мала би пам’ятати настільки точно. З одного боку, суд може посилити вимоги до open-weight моделей: “надайте ваги — отримаєте доказ проти себе”. З іншого — на це можуть звернути увагу інституції та суди, які цінують прозорість. Meta і інші можуть використати це як аргумент за те, що відкритість — це «сервіс» і «відповідальність»
Джерело: understandingai.org