Українська версія gg виходить за підтримки маркетплейсу

OpenAI навчала GPT-4 на розшифрованих відео з YouTube - NYT

Автор: Богдан Камінський | 08 квітня 2024, 20:19

Growtika/Unsplash

Компанія OpenAI використовувала алгоритм транскрипції тексту Whisper, щоб розшифровувати понад мільйон годин відео з YouTube для навчання своєї новітньої моделі мовної моделі GPT-4.

Що відомо

За даними The New York Times, в OpenAI закінчилися якісні дані для навчання ще у 2021 році. Щоб розв'язати цю проблему, компанія розробила власну модель Whisper спеціально для розшифровки відео, подкастів та аудіокниг.

The Times стверджує, що президент OpenAI Грег Брокман (Greg Brockman) особисто брав участь у зборі роликів з YouTube.

Представник компанії заявив, що вони використовують різні джерела даних, включно із загальнодоступними та отриманими за партнерськими угодами.

Google, власник YouTube, заявив, що умови використання платформи забороняють несанкціонований збір або завантаження контенту. Компанія вживає технічних і правових заходів для запобігання такого використання даних без дозволу, заявив представник техногіганта.

Тим часом Google також використовувала деякий контент з YouTube для навчання ШІ. Однак у компанії наголосили, що це відбувається в рамках окремих угод із кожним автором контенту, чиї ролики беруть участь у цьому процесі.

Газета також повідомляє, що Meta зіткнулася з аналогічними проблемами доступності даних для навчання своїх ШІ-систем. Компанія нібито розглядала можливість незаконного використання матеріалів, захищених авторським правом.

Для тих, хто хоче знати більше:

YouTube попереджає OpenAI про неприпустимість використання відео для навчання ШІ без дозволу

Джерело: The New York Times, The Verge

Штучний інтелект

Читайте gg українською у Telegram

Написати коментар