"Paradigmenwechsel" in der Robotik: Alter3-Roboter kombiniert mit GPT-4: Er kann jetzt Selfies machen und eine imaginäre Gitarre spielen und wird durch Sprache statt durch komplexe Befehle programmiert
Einem Forscherteam der Universität Tokio ist es gelungen, eine Verbindung zwischen dem großen Sprachmodell GPT-4 und dem Roboter Alter3 herzustellen, die es ihnen ermöglicht, menschenähnlichere Gesten auszuführen und den Roboter in natürlicher Sprache zu programmieren, so dass die herkömmlichen hardwareabhängigen Steuerungssysteme aufgegeben werden können. Die Projektautoren nannten diesen Fortschritt einen "Paradigmenwechsel" in der Robotik.
Alter3 ist die neueste Version des humanoiden Roboters, der 2016 erstmals in Betrieb genommen wurde. Er ist in der Lage, komplexe Oberkörperbewegungen auszuführen, einschließlich detaillierter Gesichtsausdrücke, und verfügt über 43 Achsen, die die Bewegung des menschlichen Bewegungsapparats nachahmen. Er ruht auf einem Sockel, kann aber nicht laufen (obwohl er das Gehen simulieren kann). Mit Hilfe von GPT-4 brachten die Forscher dem Roboter bei, verschiedene Simulationen durchzuführen, z. B. ein Selfie zu machen, einen Ball zu werfen, Popcorn zu essen und eine imaginäre Gitarre zu spielen. Bisher mussten für diese Aktivitäten spezifische Anweisungen kodiert werden, aber mit GPT-4 können Roboter einfache Sprachanweisungen lernen.
Die Forscher stellen fest, dass "eine direkte Steuerung jetzt möglich ist, indem die sprachlichen Ausdrücke menschlicher Handlungen durch Softwarecode auf den Roboterkörper übertragen werden. Dies eröffnet größere Möglichkeiten für die Zusammenarbeit zwischen Mensch und Roboter. Mit diesem Durchbruch in der Robotik können wir intelligentere, anpassungsfähigere und persönlichere Robotereinheiten erwarten. Der Alter3-Roboter hat eine eingebaute Kamera, die es ihm ermöglicht, Menschen zu "sehen" und sein Verhalten durch Beobachtung ihrer Reaktionen zu verbessern.
Durch den Einsatz von Sprachmodellen in der Robotikforschung vereinfachen Wissenschaftler den Prozess der Koordinierung der vielen Gelenke eines Roboters erheblich, indem sie verbale Anweisungen geben, Bewegungsoptionen beschreiben und den Softwarecode erhalten, der den Motor des Roboters startet. Dadurch entfällt die mühsame Aufgabe, jede einzelne Bewegung für 43 Achsen zu programmieren, und die Forscher können die Bewegungen des Roboters im Laufe der Zeit schneller, reibungsloser und genauer neu konfigurieren und verfeinern.
Die Forscher fügten den Aktivitäten von Alter3 auch eine Prise Humor hinzu. In einem Szenario zeigt der Roboter, dass er eine Tüte Popcorn isst, aber dann stellt sich heraus, dass das Popcorn einer Person gehört, die neben ihm sitzt. Die Gesichtsausdrücke und Handbewegungen des Roboters vermitteln Überraschung und Scham.
Quelle: techxplore.com