Google I/O 2024: die Gemini-Ära in der Suche - KI wird Zeichnungen, Videos und Musik erstellen und vor Telefonbetrügern warnen
Von: Viktor Tsyrfa | 15.05.2024, 10:21
Auf der aktuellen Google I/O-Konferenz hat der Suchmaschinenriese gezeigt, dass er nicht die Absicht hat, seine Führungsrolle bei der Einführung von künstlicher Intelligenz aufzugeben. KI wird enger in Google Fotos, Google Camera, Gmail, die Suche und andere Apps integriert werden, und Gemini wird der primäre persönliche Assistent werden, mit dem über Text, Sprache und Kamera kommuniziert werden kann.
Google I/O 2024: Höhepunkte
- Gemini wird nun der wichtigste Assistent in Android. Kein Wort über das Schicksal von Google Assistant, aber wir alle kennen die Gewohnheiten von Google.
- Bilderzeugung - laut der detaillierten Beschreibung wird Gemini Bilder selbst von nicht existierenden Objekten erstellen. Sie können auch schöne Beschriftungen erstellen.
- Videoerstellung nach Beschreibung. Das Video kann auf die gewünschte Dauer verlängert werden. Ein vielversprechendes Tool für Blogger, um kostenlose themenbezogene Videoeinblendungen zu erhalten.
- Music AI Sandbox - ein Tool, mit dem man per Textbeschreibung ein Musikstück generieren oder die eingegebene Audiospur verarbeiten kann.
- Google Photo wird nun den gesamten Kontext von Fotos analysieren. Es wird nicht nur möglich sein, Bilder nach der Beschreibung dessen zu durchsuchen, was auf ihnen aufgenommen wurde, sondern auch eine thematische Auswahl zu treffen, z.B. Fortschritte beim Training im Laufe des Jahres, usw.
- API Gemini 1.5 Pro ist ein Sprachmodell, das 1 Mio. Token zur Verfügung stellen wird, um Abfragen zu verarbeiten, sich an den Gesprächsverlauf zu erinnern und den größten Kontext unter den Konkurrenten zu berücksichtigen. Die Anzahl der verfügbaren Token wird im Sommer verdoppelt. Gemini 1.5 Flash - Schnelle KI-API für Ergebnisse fast in Echtzeit.
- KI für das Lernen wird den Lernstoff systematisieren und erklären, einschließlich alltäglicher Beispiele.
- Circle to search - der im Galaxy S24 Ultra angekündigte Chip, der dann seinen Weg in das Google Pixel fand, wird bald in allen Android-Smartphones zu finden sein. Zur Erinnerung: Es reicht, ein Objekt auf dem Bildschirm einzukreisen, damit Google feststellen kann, was genau dort abgebildet ist, und eine Suche nach diesem Objekt startet.
- Tiefgreifende Kontextanalyse. Wenn Sie Gemini zum Beispiel bitten, eine Reise zu organisieren, wird es nicht nur ein Ticket kaufen, sondern auch eine Unterkunft vorschlagen und die Wettervorhersage überprüfen. Oder wenn Sie Schuhe bestellen, kann es Ihre Größe anhand Ihrer Gmail-Korrespondenz anpassen.
- Gemini kann nicht nur per Text oder Sprache, sondern auch per Kamera abgefragt werden. In dem Demonstrationsvideo erklärt Gemini, was das Objekt im Bild macht, analysiert Softwarecode im Handumdrehen und erklärt, was er tut, löst Rätsel und merkt sich, wo das Objekt, das zuvor im Bild zu sehen war, war.
- Die Gemini-Ära der Suche. Die Suche wird nicht nur sofort KI-generierte Auszüge und Antworten liefern, sondern sie wird auch in der Lage sein, Pläne und Aufgaben zu erstellen. Sie können komplexe Suchanfragen stellen, und Gemini plant dann eine Route, prüft die Bewertung eines Lokals oder erstellt bei Bedarf einen Speiseplan für die Woche und erstellt sofort eine Liste der Einkäufe und der Orte, an denen diese getätigt werden sollen.
- Gmail wird nun eine Übersicht über E-Mails bereitstellen, und es wird möglich sein, mehrere E-Mails zu kombinieren und eine Übersicht über E-Mails zusammenzustellen. Die KI wird auch in der Lage sein, allen Absendern dieser E-Mails zu antworten, Aufgaben zu Ihrem Kalender hinzuzufügen oder sogar eine Google-Sheets-Tabelle mit allen ähnlichen Angeboten zu erstellen, die in der Post eingegangen sind.
- Für die Teamarbeit analysiert Gemini alle Ihre Arbeits-Chats, sucht und analysiert Informationen darin und antwortet den richtigen Kollegen, auch wenn Sie nicht wissen, in welchem Chat die richtige Diskussion stattfindet.
- Gemini kann Ihnen eine PDF-Datei mit bis zu 1500 Seiten zur Analyse schicken und Sie um eine kurze Übersetzung bitten. Oder ein Video von bis zu 1 Stunde Länge, und Gemini analysiert alle Fragmente und zeigt, wenn nötig, genau den Ausschnitt, den der Nutzer braucht.
- Gemini kann gefragt werden, warum ein bestimmter Mechanismus nicht funktioniert, z. B. ein DJ-Pult oder eine Kamera, und die KI wird eine Antwort geben, wie man das Problem beheben kann. Zu diesem Zweck erkennt die KI den Mechanismus im Bild, sein Modell und die Aktion, die der Benutzer auszuführen versucht, verwendet diese Daten für eine Suche, analysiert sie und extrahiert genau die erforderlichen Informationen.
- Die KI für Programmierer generiert den Code entsprechend der Beschreibung der Aufgabe, erstellt eine Datenbank mit Fotos von Objekten und sucht nach Fehlern.
- Schutz vor betrügerischen Anrufen. Die KI analysiert Ihre Gespräche in Echtzeit, und wenn der Gesprächspartner sich verdächtig verhält, z. B. nach Ihren Bankdaten fragt, gibt sie ein akustisches Signal und eine Warnung über möglichen Betrug aus.
- Die künstliche Intelligenz wird 35 Sprachen unterstützen und das größte kontextbezogene Fenster aller Mitbewerber haben.
In diesem Jahr reagierte Sundar Pichai auf den Humor der letztjährigen Google I/O-Präsentation und lieferte gleich die Statistik, dass das Akronym "AI" in der fast zweistündigen Präsentation 120 Mal genannt wurde. Und dann noch ein weiteres Mal.
Quelle: Google I/O