NVIDIA QUEEN: un modello AI che permette di cambiare l'angolo di visualizzazione dei video in tempo reale a 350 fps
NVIDIA, in collaborazione con l'Università del Maryland, ha introdotto un nuovo modello di intelligenza artificiale chiamato QUANTIZED Efficient ENcoding ( QUUE ) che consente una ricostruzione rapida ed efficiente di scene 3D dinamiche, anche in tempo reale. Questa tecnologia può essere utilizzata nello streaming video free-view.
Ecco cosa sappiamo
La particolarità del modello è la capacità di comprimere in modo efficiente i dati mantenendo un'elevata qualità dell'immagine. Ciò consente di utilizzarlo in settori in cui velocità e precisione sono importanti: sport, medicina, industria e media. QUEEN utilizza il metodo 3D Gaussian Splatting per creare video in streaming con un punto di vista libero. È in grado di addestrarsi in meno di 5 secondi e di renderizzare le scene a circa 350 fotogrammi al secondo, riducendo le dimensioni del modello a 0,7 MB per fotogramma. Questo risultato si ottiene codificando in modo efficiente gli attributi residui tra fotogrammi consecutivi e utilizzando una struttura quantistica sparsa per comprimere i dati. Ecco come appare nella realtà:
Video: Dimostrazione di NVIDIA Queen, fonte: NVIDIA
Il nostro metodo QUEEN è in grado di catturare scene dinamiche con un'elevata qualità visiva e di ridurre le dimensioni del modello a soli 0,7 MB per fotogramma, di allenarsi in meno di 5 secondi e di eseguire il rendering a ~350 FPS.
Il modello QUEEN sarà presentato alla conferenza NeurIPS 2024, che inizierà il 10 dicembre a Vancouver, in Canada. Il codice del modello dovrebbe essere pubblicato con accesso aperto sulla pagina del progetto. Questo sviluppo è uno degli oltre 50 lavori di NVIDIA che verranno presentati a NeurIPS 2024, a dimostrazione dei risultati ottenuti dall'azienda nel campo dell'intelligenza artificiale con potenziali applicazioni nella simulazione, nella robotica e nella sanità.
Video: Dimostrazione di NVIDIA Queen, fonte: NVIDIA
Perché è importante
Il modello Queen consente di creare immagini e video 3D in tempo reale che possono essere visti da diverse angolazioni. Immaginate di guardare la partita della vostra squadra del cuore e di poter scegliere da quale angolazione vedere un gol! Oppure, durante una lezione, invece delle solite illustrazioni, un'animazione in 3D appare sulla lavagna per spiegare il funzionamento di qualcosa. Questo renderà l'apprendimento e l'intrattenimento ancora più interessanti.