Українська версія gg виходить за підтримки маркетплейсу

Дослідники Apple розробляють передову систему ШІ для поліпшення голосових помічників

Автор: Богдан Камінський | 03 квітня 2024, 02:27

Jimmy Jin/Unsplash

Команда дослідників Apple представила нову систему штучного інтелекту під назвою ReALM (Reference Resolution As Language Modeling). Вона здатна розуміти неоднозначні посилання на об'єкти на екрані, а також враховувати розмовне і контекстне тло, що дає змогу природніше взаємодіяти з голосовими помічниками.

Що відомо

ReALM використовує великі мовні моделі для перетворення складного завдання роздільної здатності екранних посилань на завдання мовного моделювання. Цей підхід показав істотний приріст продуктивності у порівнянні з наявними методами.

"Здатність розуміти контекст, включно з посиланнями, критично важлива для розмовного асистента", - зазначають дослідники Apple. Вони продемонстрували, що ReALM перевершує навіть GPT-4 у вирішенні цього завдання.

Ключовою інновацією ReALM є реконструкція екрана в текстове представлення, що передає візуальну схему і місце розташування об'єктів. Це в поєднанні з тонким налаштуванням мовних моделей забезпечило значні поліпшення в роздільній здатності екранних посилань.

Дослідники Apple розробляють передову систему ШІ для поліпшення голосових помічників-2

ReALM розуміє посилання на екранні об'єкти, що дає змогу більш природно взаємодіяти з голосовими помічниками

Дослідження підкреслює потенціал спеціалізованих мовних моделей для вирішення конкретних завдань у виробничих системах, де використання величезних наскрізних моделей є важким. Публікація Apple сигналізує про її триваючі інвестиції в підвищення зручності використання Siri та інших продуктів.

Однак автори попереджають, що автоматичний аналіз екранів має обмеження. Складніші візуальні завдання, ймовірно, потребуватимуть комп'ютерного зору і мультимодальних підходів.

У той час як конкуренти активно впроваджують генеративний ШІ, Apple намагається скоротити відставання в цій галузі, що швидко розвивається. Очікується, що на майбутній конференції WWDC компанія представить нові функції на базі великих мовних моделей і штучного інтелекту.

Джерело: VentureBeat

Штучний інтелект

Читайте gg українською у Telegram

Написати коментар