El modelo de IA Claude 3 de Anthropic vence a GPT-4 en la clasificación de Chatbot Arena

Por: Bohdan Kaminskyi | 29.03.2024, 21:22

Imagen generada con Microsoft Designer y DALL-E 2

El gran modelo lingüístico Claude 3 Opus de Anthropic ha superado por primera vez al GPT-4 de OpenAI en Chatbot Arena, una popular clasificación de crowdsourcing utilizada por los investigadores para evaluar las capacidades de los modelos lingüísticos de IA.

Esto es lo que sabemos

El investigador independiente Simon Willison ha señalado que es la primera vez que los mejores modelos disponibles, como Opus por su complejidad y Haiku por su eficiencia, son de un proveedor distinto de OpenAI.


Clasificación de chatbot de Chatbot Arena

Chatbot Arena está gestionado por la Large Model Systems Organisation (LMSYS ORG) y se basa en evaluaciones subjetivas de usuarios que comparan los resultados de distintos modelos lingüísticos. Este enfoque ayuda a superar las dificultades para evaluar objetivamente el rendimiento de los chatbots de IA.

El éxito de Claude 3 demuestra la creciente competencia en el campo de los modelos lingüísticos de IA. Algunos usuarios ya han sustituido ChatGPT por Claude 3 en sus flujos de trabajo, lo que puede afectar a la cuota de mercado de OpenAI.

Sin embargo, se espera que OpenAI lance un nuevo modelo importante, el sucesor de GPT-4 Turbo, a lo largo de este año, posiblemente en verano. Es probable que esto provoque nuevos cambios en la clasificación de Chatbot Arena en los próximos meses y años.

Los investigadores subrayan la importancia de la diversidad entre los principales proveedores del sector, ya que ayuda a que las tecnologías de modelos lingüísticos de IA evolucionen y mejoren su rendimiento.

Fuente: Ars Technica