Anthropic's Claude 3 AI-model verslaat GPT-4 in de Chatbot Arena-ranglijst

Via: Bohdan Kaminskyi | 29.03.2024, 21:22

Afbeelding gegenereerd met Microsoft Designer en DALL-E 2

Anthropic's Claude 3 Opus groot taalmodel heeft voor het eerst beter gepresteerd dan OpenAI's GPT-4 op Chatbot Arena, een populaire crowdsourced ranglijst die wordt gebruikt door onderzoekers om de capaciteiten van AI-taalmodellen te evalueren.

Dit is wat we weten

Onafhankelijk onderzoeker Simon Willison merkte op dat dit de eerste keer is dat de best beschikbare modellen, zoals Opus voor complexiteit en Haiku voor efficiëntie, van een andere leverancier zijn dan OpenAI.

Chatbot Arena ranglijst van chatbotten

Chatbot Arena wordt beheerd door de Large Model Systems Organisation (LMSYS ORG) en is gebaseerd op subjectieve beoordelingen door gebruikers die de output van verschillende taalmodellen vergelijken. Deze aanpak helpt de moeilijkheden te overwinnen bij het objectief evalueren van de prestaties van AI-chatbots.

Het succes van Claude 3 toont de groeiende concurrentie op het gebied van AI-taalmodellen. Sommige gebruikers hebben ChatGPT al vervangen door Claude 3 in hun workflows, wat het marktaandeel van OpenAI kan beïnvloeden.

Er wordt echter verwacht dat OpenAI in de loop van dit jaar, mogelijk in de zomer, een belangrijk nieuw model zal uitbrengen, de opvolger van GPT-4 Turbo. Dit zal de komende maanden en jaren waarschijnlijk leiden tot verdere veranderingen in de ranglijst van Chatbot Arena.

Onderzoekers benadrukken het belang van diversiteit onder toonaangevende leveranciers op dit gebied, omdat het AI-taalmodeltechnologieën helpt zich te ontwikkelen en hun prestaties te verbeteren.

Bron: Ars Technica