New York Times і CNN заблокували доступ до контенту для веб-краулера GPTBot від OpenAI
Новинні видання на кшталт New York Times, CNN, Reuters та Австралійська мовленнєва корпорація (ABC) заблокували інструмент компанії OpenAI, який збирає контент з їхніх сайтів.
Що відомо
Першим про блокування GPTBot повідомило видання The Verge. Згодом The Guardian виявила, що інші великі новинні сайти, включно з CNN, Reuters, Chicago Tribune ABC та інші також заборонили використання веб-краулера.
Блокування GPTBot видно у файлах robots.txt видавців, які вказують пошуковим машинам та іншим організаціям, які сторінки їм дозволено відвідувати.
Усі перераховані видання додали цей блок у серпні. CNN підтвердив блокування GPTBot. Представник Reuters повідомив, що компанія регулярно переглядає robots.txt і умови використання сайту.
Умови обслуговування газети New York Times також були нещодавно оновлені. Зокрема правила забороняють зішкрібати контент для навчання і розробки ШІ.
Для тих, хто не в курсі
Компанія OpenAI є творцем одного з найвідоміших чат-ботів зі штучним інтелектом - ChatGPT. Його веб-краулер, відомий як GPTBot, може сканувати веб-сторінки, щоб допомогти поліпшити ШІ.
Великі мовні моделі, такі як ChatGPT, вимагають величезних обсягів інформації для навчання своїх систем. Однак розробники часто замовчують про наявність у своїх наборах даних матеріалів, захищених авторським правом.
Щоб усунути можливі порушення, OpenAI опублікувала інформацію про GPTBot і розповіла, як сайти можуть заборонити краулерові збирати інформацію з сайтів, власники яких не хочуть, щоб їхній контент використовували для навчання ШІ.
Джерело: The Guardian