Модель ИИ Qwen2.5-VL от Alibaba может запускать Booking.com на Android и бронировать билеты из Чунцина в Пекин (видео)

Команда Qwen китайской компании Alibaba объявила о выпуске новой линейки AI моделей Qwen2.5-VL, способных выполнять ряд задач по анализу текста и изображений.
Что известно
Модели могут обрабатывать файлы, понимать видео, подсчитывать объекты на изображениях, а также управлять ПК, что подобно модели, которая работает в OpenAI Operator.
По данным тестирования, модель Qwen2.5-VL превосходит GPT-4 от OpenAI, Claude 3.5 от Anthropic и Gemini 2.0 Flash от Google по результатам оценки понимания видео, математики, анализа документов и ответов на вопросы. Модель способна анализировать графики и диаграммы, извлекать данные из сканов счетов и форм, а также "понимать" видео продолжительностью несколько часов.

Результаты тестирования Qwen2.5-VL. Иллюстрация: Alibaba
Интересной особенностью Qwen2.5-VL является способность взаимодействовать с программным обеспечением на ПК и мобильных устройствах. Видео, опубликованное на X, показывает, как модель Qwen2.5-VL запускает приложение Booking.com на Android и бронирует билет на самолет из Чунцина в Пекин. Однако на тесте на Linux-десктопе модель оказалась менее эффективной, ограничиваясь лишь переключением вкладок.
Не пропустите @Alibaba_Qwen 2.5 VL! Несмотря на всю Deepseek Hype, Qwen только что сбросил лучший открытый Multimodal! Qwen 2.5 VL - это модель языка видения, которая может управлять вашим компьютером, по аналогии с оператором @OpenAI, извлекать структурированную информацию из графиков и многое другое!!!
- Philipp Schmid (@_philschmid) 27 января 2025 г.
TL;DR;
3️⃣... pic.twitter.com/GeEGVdl0tI
Модели Qwen2.5-VL также имеют определенные ограничения в темах, которые они обсуждают, в частности в Qwen Chat, из-за контроля китайского интернет-регулятора, требующего соблюдения "основных социалистических ценностей".
LMAO Qwen 2.5 VL может выполнять Computer Use, из коробки, принимая на OpenAI Operator HEAD ON! ???? pic.twitter.com/lwMECXzNSu
- Vaibhav (VB) Srivastav (@reach_vb) 27 января 2025 г .
Модели Qwen2.5-VL доступны для тестирования в приложении Qwen Chat и на платформе Hugging Face. Модель Qwen2.5-VL-72B имеет специальную лицензию, которая требует разрешения на коммерческое использование для компаний с более чем 100 миллионами активных пользователей в месяц.
Источник: @_philschmid