xAI ha presentato Grok-1.5V, il suo primo modello multimodale che ora elabora anche le immagini
xAI
La startup xAI di Elon Musk ha annunciato il rilascio del suo primo modello multimodale chiamato Grok-1.5 Vision, o Grok-1.5V. A differenza delle versioni precedenti, questo modello non solo comprende il testo, ma è anche in grado di elaborare contenuti visivi come documenti, grafici, diagrammi, screenshot e foto.
Ecco cosa sappiamo
Secondo xAI, Grok-1.5V è in grado di competere con modelli multimodali avanzati in vari ambiti, come il ragionamento interdisciplinare e la comprensione dei documenti. L'azienda ha mostrato sette esempi che dimostrano le capacità del modello, dalla conversione di uno schema in codice alla creazione di una fiaba dal disegno di un bambino.
Confronto delle prestazioni di Grok-1.5V di xAI con modelli simili
Mettendo alla prova Grok-1.5V rispetto a modelli analoghi come GPT-4V e Claude 3, xAI sostiene che il suo modello multimodale supera la concorrenza, soprattutto nel nuovo benchmark RealWorldQA, progettato per valutare la comprensione del mondo spaziale reale.
I risultati di Grok-1.5V nel benchmark RealWorldQA
Il rilascio di Grok-1.5V ha seguito di poco il rilascio open source del chatbot Grok, presentato da xAI nel novembre 2023. L'azienda di Ilon Musk continua a migliorare lo sviluppo dell'intelligenza artificiale per competere con i leader del mercato come OpenAI. Detto questo, Grok ha già avuto problemi nell'insegnare agli utenti a mettere in atto comportamenti illegali.
Nei prossimi mesi, xAI promette di apportare aggiornamenti "significativi" alle funzioni di comprensione multimodale e di generazione di informazioni di Grok AI.
Fonte: VentureBeat