Apple ha sviluppato il modello multimodale MM1 per l'interpretazione di immagini e testi.
Zhiyue/Unsplash.
I ricercatori di Apple hanno creato una nuova intelligenza artificiale, chiamata MM1, in grado di interpretare sia le immagini che i dati testuali. L'azienda ha pubblicato su arXiv un documento che descrive una famiglia di modelli multimodali (MLLM) e i risultati dei loro test.
Ecco cosa sappiamo
Secondo gli sviluppatori, la famiglia di modelli multimodali MM1 ha compiuto progressi significativi nei compiti di didascalia delle immagini, di risposta alle domande visive e di ricerca, integrando dati testuali e immagini. Alcuni di essi includono fino a 30 miliardi di parametri.
I modelli utilizzano insiemi di dati costituiti da immagini con didascalia, documenti di immagini e testo semplice. I ricercatori sostengono che MM1 è in grado di contare gli oggetti, di identificarli nelle immagini e di usare il "buon senso" per fornire agli utenti informazioni utili.
Inoltre, MLLM è in grado di apprendere in modo contestuale, utilizzando le conoscenze del dialogo in corso anziché partire ogni volta da zero. Ad esempio, se viene caricata un'immagine di un menu, il modello può calcolare il costo delle bevande per un gruppo in base ai prezzi indicati.
Flashback
Mentre i modelli linguistici di grandi dimensioni (LLM) sono stati oggetto di grande attenzione da parte della stampa, Apple ha deciso di non ricorrere allo sviluppo di terze parti e di concentrarsi sulla costruzione di un proprio LLM di nuova generazione con capacità multimodali.
L'intelligenza artificiale multimodale combina ed elabora diversi tipi di dati in ingresso, come informazioni visive, audio e testuali. Ciò consente ai sistemi di comprendere meglio i dati complessi e di fornire un'interpretazione più accurata e contestuale rispetto ai modelli unimodali.
Fonte: TechXplore