xAI presenta Grok-1.5V, su primer modelo multimodal que ahora también procesa imágenes

Por: Bohdan Kaminskyi | 16.04.2024, 19:33

xAI

La startup xAI de Elon Musk ha anunciado el lanzamiento de su primer modelo multimodal llamado Grok-1.5 Vision, o Grok-1.5V. A diferencia de las versiones anteriores, este modelo no sólo entiende texto, sino que también es capaz de procesar contenido visual, incluyendo documentos, tablas, gráficos, capturas de pantalla y fotos.

Esto es lo que sabemos

Según xAI, Grok-1.5V compite con modelos multimodales avanzados en varios ámbitos, como el razonamiento interdisciplinar y la comprensión de documentos. La empresa mostró siete ejemplos que demostraban las capacidades del modelo, desde convertir un esquema en código hasta crear un cuento de hadas a partir del dibujo de un niño.

Comparación del rendimiento del Grok-1.5V de xAI con modelos similares

En las pruebas realizadas con el Grok-1.5V frente a modelos similares como el GPT-4V y el Claude 3, xAI afirma que su modelo multimodal supera a la competencia, especialmente en la nueva prueba RealWorldQA, diseñada para evaluar la comprensión del mundo espacial real.

Resultados de Grok-1.5V en la prueba RealWorldQA

El lanzamiento de Grok-1.5V se produjo poco después de la publicación en código abierto del chatbot Grok, presentado por xAI en noviembre de 2023. La empresa de Ilon Musk sigue mejorando su desarrollo de IA para competir con líderes del mercado como OpenAI. Dicho esto, Grok se ha topado anteriormente con problemas a la hora de enseñar a los usuarios a realizar comportamientos ilegales.

En los próximos meses, xAI promete realizar actualizaciones "significativas" en las funciones de comprensión multimodal y generación de información de Grok AI.

Fuente: VentureBeat