Як Google Gemini 1.5 Pro навчилася чути і Vertex AI створив конструктор ботів
Google оголосила про значні оновлення своїх мовних та генеративних моделей: тепер Gemini 1.5 Pro зможе обробляти аудіо та відео без необхідності транскрипції, а Imagen 2 отримала функції редагування зображень та можливість невидимої мітки.
ІІ Google
Gemini 1.5 Pro
Найбільша мовна модель Google Gemini 1.5 Pro оновилася і тепер здатна розпізнавати мову з аудіо та відео без завантаження текстових стенограм. Це дозволить користувачам безпосередньо спілкуватися з моделлю та отримувати відповіді на основі звукових даних. Gemini 1.5 Pro була презентована в лютому і перевершує за продуктивністю інші моделі компанії. Її головна перевага – здатність обробляти величезний обсяг контексту від 128 000 до мільйона токенів, що в рази більше, ніж у конкурентів, як GPT-4 від OpenAI.
Imagen 2
Також Google покращила свою генеративну модель Imagen, що відповідає за створення зображень за текстових запитів. Нова версія Imagen 2 отримала функції "inpainting" та "outpainting", що дозволяють додавати або видаляти елементи на згенерованих картинках. Крім цього, всі зображення, створені моделлю, тепер можуть маркуватися невидимим водяним знаком SynthID, що вказує на їхнє штучне походження.
Вертекс АІ
Оновлені моделі будуть доступні на новій хмарній платформі Vertex AI, призначеній для бізнес-клієнтів Google. З її допомогою компанії зможуть створювати власних чат-ботів та інтегрувати їх у свої продукти та послуги.
Глосарій
- Google - найбільша технологічна компанія, розробник пошукової системи та різних сервісів
- Gemini - лінійка мовних моделей Google для обробки природної мови
- Imagen - генеративна модель Google для створення зображень за текстовими описами
- Vertex AI - хмарна платформа для створення та розгортання ІІ- моделей
Посилання
Відповіді на питання
Що нового в Gemini 1.5 Pro?
Які покращення отримала Imagen 2?
Де будуть доступні оновлені моделі Gemini та Imagen?
Чим відрізняється Gemini 1.5 Pro від інших мовних моделей?
Які основні терміни пов'язані з новими моделями Google?
Хештеги
Збережи посилання на цю сторінку
Обговорення теми – Як Google Gemini 1.5 Pro навчилася чути і Vertex AI створив конструктор ботів
На конференції Google Next компанія анонсувала, що Gemini 1.5 Pro тепер підтримує розпізнавання мовлення з аудіо, відео та телефонних дзвінків без стенограми. Також було представлено платформу Vertex AI для створення ботів.
Останні коментарі
14 коментарів
Написати коментар
Ваша адреса електронної пошти не буде опублікована. Обов'язкові поля відмічені *
Михаил
Gemini 1.5 Pro - це черговий прорив у галузі обробки природної мови. Можливість розуміти аудіо без необхідності транскрипції відкриває нові горизонти для голосових помічників та чат-ботів. 🎉
Катя
Так, це вражає! Але мене більше цікавить нова функція inpainting в Imagen 2. Уявляєте тепер можна легко видаляти або додавати елементи на зображеннях. Це буде корисно для творчих проектів та редагування фото. 🖼️
Ян
Відмінна новина для розробників! З таким обсягом контексту, який може обробити Gemini 1.5 Pro, створення складніших і просунутих програм стане набагато простіше. Чекаю не дочекаюсь, коли зможу випробувати її на практиці. 💻
Анна
Водяний знак SynthID – гарна ідея для генеративних AI-зображень. Це допоможе відрізняти їх від реальних фотографій та захистити авторські права. Але я сподіваюся, що він не буде надто помітним і не зіпсує загальне враження від картинки. 🖌️
Виктор
Ці оновлення – ще один крок до більш тісної інтеграції штучного інтелекту у наше повсякденне життя. Я з нетерпінням чекаю, коли зможу використовувати Gemini 1.5 Pro та Imagen 2 для автоматизації рутинних завдань та створення унікального контенту. 🚀
Ганс
Як старий буркун, я скептично ставлюся до всіх цих новомодних трендів. Навіщо нам штучний інтелект, якщо у нас є люди, які можуть виконувати ті самі завдання? Це просто чергова марна іграшка для розробників. 🙄
София
Гансе, я розумію твою занепокоєність, але прогрес не зупинити. Завдяки таким інструментам, як Gemini 1.5 Pro та Imagen 2, ми зможемо автоматизувати рутинні завдання та зосередитись на більш творчій та інтелектуальній роботі. Це шанс для людства, а чи не загроза. 🌟
Лукаш
Я вже уявляю, як Gemini 1.5 Pro використовуватиметься у сфері обслуговування клієнтів. Можливість розуміти голосові запити та надавати релевантну інформацію у реальному часі – це справжній прорив. Клієнти будуть задоволені швидким та ефективним обслуговуванням. 🤖
Мария
А я чекаю, коли я зможу використовувати Imagen 2 для створення унікальних ілюстрацій для своїх проектів. Функції inpainting та outpainting відкривають стільки можливостей для творчості! 🎨
Давид
Не можу не погодитись із Михайлом. Обробка аудіо без транскрипції – це величезний крок уперед. Уявіть, як це спростить взаємодію з голосовими помічниками в автомобілях або розумних годинниках. Технології справді змінюють наше життя! ⌚
Елена
Мені подобається ідея водяного знаку SynthID. Це допоможе відрізняти генеративні зображення від реальних та уникнути плутанини. Звичайно, було б чудово, якби він був максимально непомітним для ока. 🔍
Якуб
Я вже бачу, як Gemini 1.5 Pro та Imagen 2 будуть використовуватися в освіті. Уявіть, наскільки цікавішими стануть уроки за допомогою цих інструментів! Учні зможуть краще засвоювати матеріал завдяки наочності та інтерактивності. 👩🏫
Франческа
Як розробник, я з нетерпінням чекаю можливості попрацювати з Gemini 1.5 Pro та Imagen 2. Їхні потужні можливості дозволять створювати справді інноваційні програми та сервіси. Це справжній прорив у галузі технологій! 💻🚀
Андрей
Не можу не помітити, що всі ці поновлення - лише верхівка айсберга. Google продовжує активно розвивати свої AI-технології, і я впевнений, що в найближчому майбутньому на нас чекають ще більш вражаючі анонси. Епоха штучного інтелекту лише починається! ⚡