Il modello AI Qwen2.5-VL di Alibaba è in grado di far funzionare Booking.com su Android e di prenotare biglietti da Chongqing a Pechino (video)

Il team Qwen di Alibaba ha annunciato il rilascio di una nuova linea di modelli AI Qwen2.5-VL in grado di eseguire una serie di compiti di analisi di testi e immagini.
Ecco cosa sappiamo
I modelli sono in grado di elaborare file, comprendere video, contare oggetti in immagini e controllare PC, in modo simile al modello che funziona in OpenAI Operator.
Secondo i dati dei test, Qwen2.5-VL supera GPT-4 di OpenAI, Claude 3.5 di Anthropic e Gemini 2.0 Flash di Google nella comprensione dei video, nella matematica, nell'analisi dei documenti e nella risposta alle domande. Il modello è in grado di analizzare grafici e diagrammi, estrarre dati da scansioni di fatture e moduli e "capire" video della durata di diverse ore.

Risultati del test Qwen2.5-VL. Illustrazione: Alibaba
Una caratteristica interessante di Qwen2.5-VL è la capacità di interagire con il software su PC e dispositivi mobili. Un video pubblicato su X mostra un modello Qwen2.5-VL che lancia l'applicazione Booking.com su Android e prenota un biglietto aereo da Chongqing a Pechino. Tuttavia, in un test su un desktop Linux, il modello si è dimostrato meno efficiente, limitandosi a cambiare scheda.
Non perdetevi @Alibaba_Qwen 2.5 VL! Nonostante tutto il clamore suscitato da Deepseek, Qwen ha appena lanciato il miglior multimodale aperto! Qwen 2.5 VL è un Vision Language Model in grado di controllare il computer, in modo simile all'operatore @OpenAI, di estrarre informazioni strutturate dai grafici e altro ancora!
- Philipp Schmid (@_philschmid) 27 gennaio 2025
TL;DR;
3️⃣... pic.twitter.com/GeEGVdl0tI
I modelli Qwen2.5-VL hanno anche alcune restrizioni sugli argomenti da discutere, in particolare in Qwen Chat, a causa dei controlli dell'autorità cinese di regolamentazione di Internet che richiede l'adesione ai "valori socialisti fondamentali".
LMAO Qwen 2.5 VL può eseguire l'uso del computer, fuori dalla scatola, affrontando a testa alta l'operatore OpenAI! ???? pic.twitter.com/lwMECXzNSu
- Vaibhav (VB) Srivastav (@reach_vb) 27 gennaio 2025
I modelli Qwen2.5-VL sono disponibili per il test nell'app Qwen Chat e sulla piattaforma Hugging Face. Il modello Qwen2.5-VL-72B ha una licenza speciale che richiede l'autorizzazione all'uso commerciale per le aziende con più di 100 milioni di utenti attivi mensili.
Fonte: @_philschmid