Модель ИИ Qwen2.5-VL от Alibaba может запускать Booking.com на Android и бронировать билеты из Чунцина в Пекин (видео)
Команда Qwen китайской компании Alibaba объявила о выпуске новой линейки AI моделей Qwen2.5-VL, способных выполнять ряд задач по анализу текста и изображений.
Что известно
Модели могут обрабатывать файлы, понимать видео, подсчитывать объекты на изображениях, а также управлять ПК, что подобно модели, которая работает в OpenAI Operator.
По данным тестирования, модель Qwen2.5-VL превосходит GPT-4 от OpenAI, Claude 3.5 от Anthropic и Gemini 2.0 Flash от Google по результатам оценки понимания видео, математики, анализа документов и ответов на вопросы. Модель способна анализировать графики и диаграммы, извлекать данные из сканов счетов и форм, а также "понимать" видео продолжительностью несколько часов.
Результаты тестирования Qwen2.5-VL. Иллюстрация: Alibaba
Интересной особенностью Qwen2.5-VL является способность взаимодействовать с программным обеспечением на ПК и мобильных устройствах. Видео, опубликованное на X, показывает, как модель Qwen2.5-VL запускает приложение Booking.com на Android и бронирует билет на самолет из Чунцина в Пекин. Однако на тесте на Linux-десктопе модель оказалась менее эффективной, ограничиваясь лишь переключением вкладок.
Модели Qwen2.5-VL также имеют определенные ограничения в темах, которые они обсуждают, в частности в Qwen Chat, из-за контроля китайского интернет-регулятора, требующего соблюдения "основных социалистических ценностей".
Модели Qwen2.5-VL доступны для тестирования в приложении Qwen Chat и на платформе Hugging Face. Модель Qwen2.5-VL-72B имеет специальную лицензию, которая требует разрешения на коммерческое использование для компаний с более чем 100 миллионами активных пользователей в месяц.
Источник: @_philschmid