Google I/O 2024: l'era Gemini nella ricerca - L'intelligenza artificiale creerà disegni, video e musica e metterà in guardia dai truffatori telefonici

Di: Viktor Tsyrfa | 15.05.2024, 10:21

Durante l'attuale conferenza Google I/O, il gigante della ricerca ha dimostrato che non ha intenzione di rinunciare alla sua leadership nell'introduzione dell'intelligenza artificiale. L'intelligenza artificiale sarà integrata più strettamente in Google Foto, Google Fotocamera, Gmail, ricerca e altre app, e Gemini diventerà l'assistente personale principale con cui comunicare tramite testo, voce e fotocamera.

Google I/O 2024: punti salienti

Gemini diventerà l'assistente principale di Android. Non si sa quale sarà il destino di Google Assistant, ma conosciamo tutti le abitudini di Google.
Generazione di immagini - secondo la descrizione dettagliata, Gemini creerà immagini di oggetti anche inesistenti. È anche possibile creare bellissime didascalie.
Generazione di video in base alla descrizione. Il video può essere esteso alla durata desiderata. Uno strumento molto promettente per i blogger per ottenere inserti video tematici gratuiti.
Music AI Sandbox - uno strumento per generare tramite descrizione testuale un campione musicale o elaborare la traccia audio in ingresso.
Google Foto analizzerà ora l'intero contesto delle foto. Sarà possibile non solo cercare le immagini in base alla descrizione di ciò che è stato scattato, ma anche effettuare selezioni tematiche, ad esempio i progressi degli allenamenti nel corso dell'anno, ecc.
API Gemini 1.5 Pro è un modello linguistico che fornirà 1 Mn di token per elaborare le query, ricordare la cronologia delle conversazioni e tenere conto del contesto più ampio tra i concorrenti. Il numero di token disponibili sarà raddoppiato in estate. Gemini 1.5 Flash - API AI veloce per risultati quasi in tempo reale.
L'AI per l'apprendimento sistematizzerà e spiegherà il materiale didattico, compresi gli esempi quotidiani.
Circle to search - il chip annunciato nel Galaxy S24 Ultra, che ha poi fatto il suo ingresso nel Google Pixel, apparirà presto su tutti gli smartphone Android. Come promemoria, è sufficiente cerchiare un oggetto sullo schermo perché Google determini cosa vi è raffigurato esattamente e avvii una ricerca per quell'oggetto.
Analisi profonda del contesto. Ad esempio, se chiedete a Gemini di organizzare un viaggio, non si limiterà a comprare un biglietto, ma vi suggerirà anche un posto dove stare e controllerà le previsioni del tempo. Oppure, quando si ordinano delle scarpe, sarà in grado di regolare la taglia in base alla corrispondenza con Gmail.
Gemini può essere interrogato non solo tramite testo o voce, ma anche tramite fotocamera. Nel video dimostrativo, Gemini ha spiegato cosa stava facendo l'oggetto inquadrato, analizza al volo il codice del software e spiega cosa fa, risolve enigmi, ricorda dove si trovava l'oggetto visto prima nell'inquadratura.
L'era Gemini della ricerca. Non solo la ricerca produrrà immediatamente estratti e risposte generate dall'intelligenza artificiale, ma la ricerca sarà ora in grado di elaborare piani e compiti. Sarà possibile inserire query complesse e Gemini traccerà un percorso, controllerà la valutazione di un locale o creerà un menu per la settimana, se necessario, stilando immediatamente un elenco di acquisti e di luoghi in cui effettuarli.
Gmail fornirà ora un resoconto delle e-mail e sarà possibile combinare più e-mail e fare un resoconto delle e-mail insieme. L'intelligenza artificiale sarà anche in grado di rispondere a tutti i mittenti di quelle e-mail, aggiungere attività al calendario o persino creare una tabella di Google Sheets con tutte le offerte simili arrivate per posta.
Per il lavoro di squadra, Gemini analizzerà tutte le chat di lavoro, cercherà e analizzerà le informazioni in esse contenute e risponderà ai colleghi giusti anche se non si sa in quale chat si stia svolgendo la discussione giusta.
A Gemini si può inviare un file PDF fino a 1500 pagine da analizzare e chiedere una breve traduzione. Oppure un video della durata massima di 1 ora: Gemini analizzerà tutti i frammenti e, se necessario, mostrerà esattamente il segmento di cui l'utente ha bisogno.
A Gemini si può chiedere perché un certo meccanismo non funziona, ad esempio una console per DJ o una telecamera, e l'IA darà una risposta su come ripararlo. Per fare questo, l'IA riconosce il meccanismo nell'inquadratura, il suo modello, l'azione che l'utente sta cercando di compiere, utilizza questi dati per fare una ricerca, li analizza ed estrae esattamente le informazioni necessarie.
L'IA per programmatori genera codice in base alla descrizione del compito, crea un database di foto di oggetti e cerca gli errori.
Protezione contro le chiamate fraudolente. L'intelligenza artificiale analizza le conversazioni in tempo reale e, se l'interlocutore si comporta in modo sospetto, ad esempio chiedendo i dati bancari, emette un segnale acustico e un avviso di possibile frode.
L'intelligenza artificiale supporterà 35 lingue e avrà la più ampia finestra contestuale di qualsiasi altro concorrente.

Quest'anno, Sundar Pichai ha risposto all'umorismo relativo alla presentazione di Google I/O dell'anno scorso e ha immediatamente fornito la statistica secondo cui l'acronimo "AI" è stato pronunciato 120 volte durante le quasi due ore di presentazione. E poi ancora una volta.

Fonte: Google I/O