"Зміна парадигми" в роботехніці: робота Alter3 з'єднали з GPT-4: тепер він уміє робити селфі, грати на уявній гітарі та програмується голосом замість складних команд

Автор: Анрі Сергіїв | 19 грудня 2023, 19:58

Команда дослідників з Токійського університету змогли побудувати зв'язок між великою мовною моделлю GPT-4 й роботом Alter3, що дало їм змогу виконувати більш людиноподібні жести та програмувати робота природною мовою, відмовляючись від традиційних апаратно-залежних систем управління. Автори проєкту назвали цей прогрес "зміною парадигми" в робототехніці.

Alter3 - це остання версія гуманоїдного робота, якого вперше було введено в експлуатацію у 2016 році. Він здатний виконувати складні рухи верхньої частини тіла, включно з детальним виразом обличчя, має 43 осі, що імітують рух опорно-рухового апарату людини. Він спирається на основу, але не може ходити (хоча може імітувати ходьбу). За допомогою GPT-4 дослідники навчили робота виконувати різноманітні симуляції, як-от селфі, кидання м'яча, поїдання попкорну та гру на уявній гітарі. Раніше для таких дій потрібно було кодувати конкретні інструкції для кожної дії, але з використанням GPT-4 роботи можуть навчитися звичайних мовних інструкцій.


-А зіграй нам "Smoke on the Water"

Дослідники стверджують, що "пряме управління тепер стає можливим шляхом перенесення лінгвістичних виразів людських дій на тіло робота за допомогою програмного коду". Це дає змогу розширити можливості для співпраці між людиною і роботом. Завдяки цьому прориву в галузі робототехніки можна очікувати більш інтелектуальні, адаптивні та персональні робототехнічні сутності. Робот Alter3 має вбудовану камеру, що дає йому змогу "бачити" людей і вдосконалювати свою поведінку, спостерігаючи за їхньою реакцією.

Завдяки використанню мовних моделей у дослідженнях робототехніки, вчені значно спрощують процес координації багатьох суглобів робота шляхом надання вербальних інструкцій, що описують варіанти руху та отримують програмний код, який запускає двигун робота. Це звільняє від рутинної роботи, що полягає в програмуванні кожного окремого руху для 43 осей, і дає змогу дослідникам швидше, плавніше й точніше переналаштовувати та вдосконалювати рухи робота з часом.


Alter3 показує зомбі

Дослідники також додали трохи гумору до активностей робота Alter3. В одному сценарії робот демонструє, що їсть пакет попкорну, але потім виявляється, що попкорн належить людині, яка сидить поруч. Вирази обличчя робота і рухи руки передають здивування і сором.

Джерело: techxplore.com