Apple-forskere utvikler et avansert AI-system for å forbedre stemmeassistenter

Av: Bohdan Kaminskyi | 03.04.2024, 00:27
Apple-forskere utvikler et avansert AI-system for å forbedre stemmeassistenter
Jimmy Jin/Unsplash.

Et team av Apple-forskere har avduket et nytt kunstig intelligenssystem kalt ReALM (Reference Resolution As Language Modeling). Det er i stand til å forstå tvetydige referanser til objekter på skjermen, samt ta hensyn til konversasjon og kontekstuell bakgrunn, noe som muliggjør en mer naturlig interaksjon med stemmeassistenter.

Dette er hva vi vet

ReALM bruker store språkmodeller for å forvandle den komplekse oppgaven med å løse skjermreferanser til en språkmodelleringsoppgave. Denne tilnærmingen har vist betydelige ytelsesgevinster i forhold til eksisterende metoder.

"Å kunne forstå kontekst, inkludert referanser, er avgjørende for en samtaleassistent", sier Apple-forskerne. De demonstrerte at ReALM overgår selv GPT-4 på denne oppgaven.

En viktig innovasjon i ReALM er rekonstruksjonen av skjermen til en tekstlig representasjon som formidler den visuelle utformingen og plasseringen av objekter. Dette, kombinert med finjustering av språkmodellene, har gitt betydelige forbedringer i oppløsningen av skjermreferanser.

Apple-forskere utvikler et avansert AI-system for å forbedre stemmeassistenter-2
ReALM forstår referanser til objekter på skjermen, noe som muliggjør en mer naturlig interaksjon med stemmeassistenter.

Forskningen belyser potensialet for spesialiserte språkmodeller for å løse spesifikke problemer i produksjonssystemer der det er vanskelig å bruke store helhetsmodeller. Apples publisering signaliserer at selskapet fortsetter å investere i å forbedre brukervennligheten til Siri og andre produkter.

Forfatterne advarer imidlertid om at automatiserte skjermanalyser har sine begrensninger. Mer komplekse visuelle oppgaver vil sannsynligvis kreve datasyn og multimodale tilnærminger.

Mens konkurrentene satser aggressivt på generativ AI, prøver Apple å tette gapet på dette raskt voksende feltet. Selskapet forventes å presentere nye funksjoner basert på store språkmodeller og kunstig intelligens på den kommende WWDC-konferansen.

Kilde: VentureBeat VentureBeat