Українська версія gg виходить за підтримки маркетплейсу Allo

New York Times і CNN заблокували доступ до контенту для веб-краулера GPTBot від OpenAI

Автор: Богдан Камінський | 25 серпня 2023, 13:32
New York Times і CNN заблокували доступ до контенту для веб-краулера GPTBot від OpenAI

Новинні видання на кшталт New York Times, CNN, Reuters та Австралійська мовленнєва корпорація (ABC) заблокували інструмент компанії OpenAI, який збирає контент з їхніх сайтів.

Що відомо

Першим про блокування GPTBot повідомило видання The Verge. Згодом The Guardian виявила, що інші великі новинні сайти, включно з CNN, Reuters, Chicago Tribune ABC та інші також заборонили використання веб-краулера.

Блокування GPTBot видно у файлах robots.txt видавців, які вказують пошуковим машинам та іншим організаціям, які сторінки їм дозволено відвідувати.

Усі перераховані видання додали цей блок у серпні. CNN підтвердив блокування GPTBot. Представник Reuters повідомив, що компанія регулярно переглядає robots.txt і умови використання сайту.

Умови обслуговування газети New York Times також були нещодавно оновлені. Зокрема правила забороняють зішкрібати контент для навчання і розробки ШІ.

Для тих, хто не в курсі

Компанія OpenAI є творцем одного з найвідоміших чат-ботів зі штучним інтелектом - ChatGPT. Його веб-краулер, відомий як GPTBot, може сканувати веб-сторінки, щоб допомогти поліпшити ШІ.

Великі мовні моделі, такі як ChatGPT, вимагають величезних обсягів інформації для навчання своїх систем. Однак розробники часто замовчують про наявність у своїх наборах даних матеріалів, захищених авторським правом.

Щоб усунути можливі порушення, OpenAI опублікувала інформацію про GPTBot і розповіла, як сайти можуть заборонити краулерові збирати інформацію з сайтів, власники яких не хочуть, щоб їхній контент використовували для навчання ШІ.

Джерело: The Guardian

Читайте gg українською у Telegram