OpenAI навчала GPT-4 на розшифрованих відео з YouTube - NYT
Growtika/Unsplash
Компанія OpenAI використовувала алгоритм транскрипції тексту Whisper, щоб розшифровувати понад мільйон годин відео з YouTube для навчання своєї новітньої моделі мовної моделі GPT-4.
Що відомо
За даними The New York Times, в OpenAI закінчилися якісні дані для навчання ще у 2021 році. Щоб розв'язати цю проблему, компанія розробила власну модель Whisper спеціально для розшифровки відео, подкастів та аудіокниг.
The Times стверджує, що президент OpenAI Грег Брокман (Greg Brockman) особисто брав участь у зборі роликів з YouTube.
Представник компанії заявив, що вони використовують різні джерела даних, включно із загальнодоступними та отриманими за партнерськими угодами.
Google, власник YouTube, заявив, що умови використання платформи забороняють несанкціонований збір або завантаження контенту. Компанія вживає технічних і правових заходів для запобігання такого використання даних без дозволу, заявив представник техногіганта.
Тим часом Google також використовувала деякий контент з YouTube для навчання ШІ. Однак у компанії наголосили, що це відбувається в рамках окремих угод із кожним автором контенту, чиї ролики беруть участь у цьому процесі.
Газета також повідомляє, що Meta зіткнулася з аналогічними проблемами доступності даних для навчання своїх ШІ-систем. Компанія нібито розглядала можливість незаконного використання матеріалів, захищених авторським правом.
Для тих, хто хоче знати більше:
Джерело: The New York Times, The Verge