Google I/O 2024 – ера Gemini в пошуку і не тільки
Автор: Віктор Цирфа | 15 травня 2024, 00:02
На цьогорічній конференції Google I/O пошуковий гігант продемонстрував що не збирається поступатися лідерством у впровадженні штучного інтелекту. ШІ буде щільніше інтегровано в Google Фото, Google камеру, Gmail і пошук та інші застосунки, а Gemini стане основним персональним асистентом з яким можна буде спілкуватися текстом, голосом, і камерою.
- Gemini тепер стане провідним асистентом в Android. Про долю Google Асистента нічого не сказано, але всі ми знаємо звички Google.
- Генерація зображень – за детальним описом Gemini створить зображення навіть неіснуючих об’єктів. Також можна створювати красиві надписи.
- Генерація відео за описом. Відео можна продовжувати до потрібної тривалості. Дуже перспективний інструмент для блогерів щоб отримувати безкоштовні тематичні відеовставки.
- Music AI Sandbox – інструмент для генерації за текстовим описом музичного семпла чи обробити вхідну аудіодоріжку.
- Google Фото тепер буде аналізувати увесь контекст фотографій. Можна буде не лише шукати зображення по опису того, що на них зафільмовано, а і робити тематичні підбірки, наприклад прогрес від тренувать за рік і т.д.
- API Gemini 1.5 Pro – мовна модель, яка надаватиме 1 Млн токенів для обробки запитів, пам’ятатиме історію розмови і враховуватиме найбільший серед конкурентів контекст. Влітку кількість доступних токенів буде подвоєно. Gemini 1.5 Flash – API швидкого ШІ для отримання результатів практично в режимі реального часу.
- ШІ для навчання буде систематизувати і пояснювати навчальний матеріал, в тому числі на побутових прикладах.
- Circle to search – фішка, анонсована в Galaxy S24 Ultra, яка потім потрапила в Google Pixel скоро з’явиться на усіх Android-смартфонах. Нагадаємо, достатньо обвести об’єкт на екрані, щоб Google визначив що саме там зображено і запустив пошук цього об’єкта.
- Глибокий аналіз контексту. Наприклад, попросивши Gemini організувати поїздку, вона не лише придбає квиток, а і запропонує місце проживання і перевірить прогноз погоди. Або при замовленні взуття зможе самостійно підтягнути ваш розмір з переписки в Gmail.
- Запит Gemini можна робити не лише за допомогою тексту чи голосу, а і за допомогою камери. На демонстраційному відео Gemini пояснювала що робить об’єкт в кадрі, на ходу аналізує програмний код і пояснює, що він робить, розгадує ребуси, пам’ятає, де був об’єкт, який було видно в кадрі до цього.
- Ера Gemini в пошуку. Мало того, що пошук буде одразу видавати згенеровані ШІ витяги і відповіді, в пошуку тепер можна буде складати плани і завдання. Можна буде вводити складні запити, після чого за потреби Gemini прокладе маршрут, перевірить рейтинг закладу, чи складе меню на тиждень, одразу склавши список покупок і місць де їх можна зробити.
- Gmail тепер надаватиме витяг з листів, причому можна буде об’єднати кілька листів і робити витяг з них разом, так само за допомогою ШІ можна буде і відповідати усім відправникам цих листів, додавати завдання в календар, або навіть скласти в Google Sheets таблицю усі однотипні пропозиції, що надійшли на пошту.
- Для командної роботи Gemini буде аналізувати усі ваші робочі чати, шукати і аналізувати інформацію в них, а також відповідати потрібним колегам навіть якщо ви не знаєте, в якому саме чаті відбувається потрібне обговорення.
- Gemini можна відправити на аналіз PDF-файл розміром до 1500 сторінок і попросити зробити стислий переказ. Або відео тривалістю до 1 години, причому Gemini проаналізує усі фрагменти і за потреби продемонструє саме необхідний користувачу відрізок.
- Gemini можна буде запитати, чому не працює певний механізм, як-то діджейський пульт чи фотоапарат, і ШІ дасть відповідь як це виправити. Для цього ШІ розпізнає механізм в кадрі, його модель, дію, яку намагається зробити користувач, за цими даними робить пошук, аналізує його і робить витяг саме необхідної інформації.
- АІ для програмістів, генеруватиме код по опису що він повинен робити, створюватиме базу даних по фотографії об’єктів, шукатиме помилки.
- Захист від шахрайських дзвінків. ШІ в реальному часі аналізуватиме ваші розмови і якщо співбесідник буде вести себе підозріло, наприклад запитає ваші банківські реквізити, видасть звуковий сигнал і попередження про можливе шахрайство.
- Штучний інтелект підтримуватиме 35 мов і матиме найбільше контекстне вікно серед усіх конкурентів.
Цього року Сундар Пічаї відреагував на гумор щодо минулорічної презентації Google I/O і одразу надав статистику, що за майже 2 години презентації абревіатура “AI” пролунала 120 разів. А потім ще раз.