OpenAI обучала GPT-4 на расшифрованных видео с YouTube — NYT

Автор: Богдан Каминский, 08 апреля 2024, 19:30

Growtika/Unsplash

Компания OpenAI использовала алгоритм транскрипции текста Whisper, чтобы расшифровывать более миллиона часов видео с YouTube для обучения своей новейшей модели языковой модели GPT-4.

Что известно

По данным The New York Times, у OpenAI закончились качественные данные для обучения еще в 2021 году. Чтобы решить эту проблему, компания разработала собственную модель Whisper специально для расшифровки видео, подкастов и аудиокниг.

The Times утверждает, что президент OpenAI Грег Брокман (Greg Brockman) лично участвовал в сборе роликов с YouTube.

Представитель компании заявил, что они используют различные источники данных, включая общедоступные и полученные по партнерским соглашениям.

Google, владелец YouTube, заявил, что условия использования платформы запрещают несанкционированный сбор или загрузку контента. Компания предпринимает технические и правовые меры для предотвращения такого использования данных без разрешения, заявил представитель техногиганта.

Между тем, Google также использовала некоторый контент с YouTube для обучения ИИ. Однако в компании подчеркнули, что это происходит в рамках отдельных соглашений с каждым автором контента, чьи ролики участвуют в этом процессе.

Газета также сообщает, что Meta столкнулась с аналогичными проблемами доступности данных для обучения своих ИИ-систем. Компания якобы рассматривала возможность незаконного использования материалов, защищенных авторским правом.

Для тех, кто хочет знать больше:

YouTube предупреждает OpenAI о недопустимости использования видео для обучения ИИ без разрешения

Источник: The New York Times, The Verge

Подписывайтесь на наш нескучный канал в Telegram, чтобы ничего не пропустить.

Искусственный интеллект