OpenAI выпускает бесплатный ChatGPT-4o, который сможет разговаривать, смеяться, петь и видеть
Имейте в виду, он сможет понять что вы обманываете
13 мая OpenAI анонсировала выход новой версии ChatGPT-4o, который по их словам "сделает взаимодействие между человеком и компьютером еще на шаг более естественным". Новая нейросеть воспринимает любую комбинацию текста, аудио и изображений и генерирует ответ также во всех этих форматах. Как утверждают представители компании, ИИ распознает эмоции, может прерывать на середине предложения и отвечает почти так же быстро, как человек.
Поприветствуйте GPT-4o, нашу новую флагманскую модель, которая может рассуждать через аудио, зрение и текст в режиме реального времени: https://t.co/MYHZB79UqN
- OpenAI (@OpenAI) 13 мая 2024 г.
Ввод текста и изображений выкатывается сегодня в API и ChatGPT с голосом и видео в ближайшие недели. pic.twitter.com/uuthKZyzYx
Буква "о" в названии ChatGPT-4o не только мимикрирует под 40, но и имеет обозначение omni, то есть всеобъемлемость, или всеядность. CTO OpenAI Мира Мурати (Mira Murati) заявила, что ChatGPT-4o будет искусственным интеллектом уровня ChatGPT-4 для всех, даже пользователей без платной подписки.
На презентации ChatGPT-4o решил линейное уравнение, записанное на бумаге, а также дал советы по глубокому дыханию просто слушая звуки дыхания.
Предыдущие языковые модели ChatGpt-3.5 и ChatGPT-4 тоже в принципе могли общаться голосом, но для этого сначала голос переводился в текст, а затем обрабатывался. То есть, по сути, сначала одна нейронная сеть обрабатывала голос, потом другая - текст. Теперь же одна и та же нейросеть обрабатывает и звук и информацию, которую он несет. С таким подходом OpenAI пытается получить больше контекста из имеющегося материала, например, об эмоциональном состоянии собеседника. А еще это намного быстрее.