OpenAI обучала GPT-4 на расшифрованных видео с YouTube — NYT
Growtika/Unsplash
Компания OpenAI использовала алгоритм транскрипции текста Whisper, чтобы расшифровывать более миллиона часов видео с YouTube для обучения своей новейшей модели языковой модели GPT-4.
Что известно
По данным The New York Times, у OpenAI закончились качественные данные для обучения еще в 2021 году. Чтобы решить эту проблему, компания разработала собственную модель Whisper специально для расшифровки видео, подкастов и аудиокниг.
The Times утверждает, что президент OpenAI Грег Брокман (Greg Brockman) лично участвовал в сборе роликов с YouTube.
Представитель компании заявил, что они используют различные источники данных, включая общедоступные и полученные по партнерским соглашениям.
Google, владелец YouTube, заявил, что условия использования платформы запрещают несанкционированный сбор или загрузку контента. Компания предпринимает технические и правовые меры для предотвращения такого использования данных без разрешения, заявил представитель техногиганта.
Между тем, Google также использовала некоторый контент с YouTube для обучения ИИ. Однако в компании подчеркнули, что это происходит в рамках отдельных соглашений с каждым автором контента, чьи ролики участвуют в этом процессе.
Газета также сообщает, что Meta столкнулась с аналогичными проблемами доступности данных для обучения своих ИИ-систем. Компания якобы рассматривала возможность незаконного использования материалов, защищенных авторским правом.
Для тех, кто хочет знать больше:
Источник: The New York Times, The Verge