OpenAI veröffentlicht kostenlosen ChatGPT-4o, der sprechen, lachen, singen und sehen kann
Am 13. Mai kündigte OpenAI die Veröffentlichung einer neuen Version von ChatGPT-4o an, die nach eigenen Angaben "die Interaktion zwischen Mensch und Computer einen Schritt natürlicher machen wird". Das neue neuronale Netzwerk akzeptiert jede Kombination von Text, Audio und Bildern und erzeugt Antworten in all diesen Formaten. Nach Angaben des Unternehmens erkennt die KI Emotionen, kann mitten im Satz unterbrechen und antwortet fast so schnell wie ein Mensch.
Der Buchstabe "o" im Namen von ChatGPT-4o steht nicht nur für die Zahl 40, sondern auch für omni, was so viel bedeutet wie "umfassend" oder "allwissend". Mira Murati, CTO von OpenAI, erklärte, dass ChatGpt-4o eine künstliche Intelligenz auf ChatGPT-4-Niveau für jedermann sein wird, auch für Nutzer ohne ein kostenpflichtiges Abonnement.
Bei der Präsentation löste ChatGPT-4o eine auf Papier geschriebene lineare Gleichung und gab auch Tipps zum tiefen Atmen, indem es einfach auf Atemgeräusche hörte.
Die früheren Sprachmodelle ChatGpt-3.5 und ChatGPT-4 konnten auch über die Stimme kommunizieren, aber dazu wurde die Stimme erst in Text übersetzt und dann verarbeitet. Mit anderen Worten, zuerst verarbeitete ein neuronales Netz die Stimme, dann ein anderes den Text. Jetzt verarbeitet dasselbe neuronale Netz sowohl den Ton als auch die Informationen, die er trägt. Mit diesem Ansatz versucht OpenAI, mehr Kontext aus dem verfügbaren Material zu gewinnen, etwa den emotionalen Zustand des Gesprächspartners. Außerdem ist es viel schneller.