Как Google Gemini 1.5 Pro научилась слышать и Vertex AI создал конструктор ботов
Google объявила о значительных обновлениях своих языковых и генеративных моделей: теперь Gemini 1.5 Pro сможет обрабатывать аудио и видео без необходимости транскрипции, а Imagen 2 получила функции редактирования изображений и возможность невидимой метки.
ИИ Гугл
Gemini 1.5 Pro
Крупнейшая языковая модель Гугл Gemini 1.5 Pro обновилась и теперь способна распознавать речь из аудио и видео без загрузки текстовых стенограмм. Это позволит пользователям напрямую общаться с моделью и получать ответы на основе звуковых данных. Gemini 1.5 Pro была презентована в феврале и превосходит по производительности другие модели компании. Ее главное преимущество – способность обрабатывать огромный объем контекста от 128 000 до миллиона токенов, что в разы больше, чем у конкурентов, вроде GPT-4 от OpenAI.
Imagen 2
Также Гугл улучшила свою генеративную модель Imagen, отвечающую за создание изображений по текстовым запросам. Новая версия Imagen 2 получила функции "inpainting" и "outpainting", позволяющие добавлять или удалять элементы на сгенерированных картинках. Помимо этого, все изображения, созданные моделью, теперь могут маркироваться невидимым водяным знаком SynthID, указывающим на их искусственное происхождение.
Вертекс АИ
Обновленные модели будут доступны на новой облачной платформе Vertex AI, предназначенной для бизнес-клиентов Google. С ее помощью компании смогут создавать собственных чат-ботов и интегрировать их в свои продукты и сервисы.
Глоссарий
- Google - крупнейшая технологическая компания, разработчик поисковой системы и различных сервисов
- Gemini - линейка языковых моделей Google для обработки естественного языка
- Imagen - генеративная модель Google для создания изображений по текстовым описаниям
- Vertex AI - облачная платформа для создания и развертывания ИИ-моделей
Ссылки
Ответы на вопросы
Что нового в Gemini 1.5 Pro?
Какие улучшения получила Imagen 2?
Где будут доступны обновленные модели Gemini и Imagen?
Чем отличается Gemini 1.5 Pro от других языковых моделей?
Какие основные термины связаны с новыми моделями Google?
Хештеги
Сохрани ссылку на эту статью
Обсуждение темы – Как Google Gemini 1.5 Pro научилась слышать и Vertex AI создал конструктор ботов
На конференции Google Next компания анонсировала, что Gemini 1.5 Pro теперь поддерживает распознавание речи из аудио, видео и телефонных звонков без стенограммы. Также была представлена платформа Vertex AI для создания ботов.
Последние комментарии
14 комментариев
Написать комментарий
Ваш адрес электронной почты не будет опубликован. Обязательные поля отмечены *
Михаил
Gemini 1.5 Pro - это очередной прорыв в области обработки естественного языка. Возможность понимать аудио без необходимости транскрипции открывает новые горизонты для голосовых помощников и чат-ботов. 🎉
Катя
Да, это впечатляет! Но меня больше интересует новая функция inpainting в Imagen 2. Представляете, теперь можно легко удалять или добавлять элементы на изображениях. Это будет полезно для творческих проектов и редактирования фото. 🖼️
Ян
Отличная новость для разработчиков! С таким объемом контекста, который может обработать Gemini 1.5 Pro, создание более сложных и продвинутых приложений станет гораздо проще. Жду не дождусь, когда смогу опробовать ее на практике. 💻
Анна
Водяной знак SynthID - хорошая идея для генеративных AI-изображений. Это поможет отличать их от реальных фотографий и защитить авторские права. Но я надеюсь, что он не будет слишком заметным и не испортит общее впечатление от картинки. 🖌️
Виктор
Эти обновления - еще один шаг к более тесной интеграции искусственного интеллекта в нашу повседневную жизнь. Я с нетерпением жду, когда смогу использовать Gemini 1.5 Pro и Imagen 2 для автоматизации рутинных задач и создания уникального контента. 🚀
Ганс
Как старый ворчун, я скептически отношусь ко всем этим новомодным трендам. Зачем нам искусственный интеллект, если у нас есть люди, которые могут выполнять те же задачи? Это просто очередная бесполезная игрушка для разработчиков. 🙄
София
Ганс, я понимаю твою озабоченность, но прогресс не остановить. Благодаря таким инструментам, как Gemini 1.5 Pro и Imagen 2, мы сможем автоматизировать рутинные задачи и сосредоточиться на более творческой и интеллектуальной работе. Это шанс для человечества, а не угроза. 🌟
Лукаш
Я уже представляю, как Gemini 1.5 Pro будет использоваться в сфере обслуживания клиентов. Возможность понимать голосовые запросы и предоставлять релевантную информацию в реальном времени - это настоящий прорыв. Клиенты будут довольны быстрым и эффективным обслуживанием. 🤖
Мария
А я жду, когда смогу использовать Imagen 2 для создания уникальных иллюстраций для своих проектов. Функции inpainting и outpainting открывают столько возможностей для творчества! 🎨
Давид
Не могу не согласиться с Михаилом. Обработка аудио без транскрипции - это огромный шаг вперед. Представьте, как это упростит взаимодействие с голосовыми помощниками в автомобилях или умных часах. Технологии действительно меняют нашу жизнь! ⌚
Елена
Мне нравится идея водяного знака SynthID. Это поможет отличать генеративные изображения от реальных и избежать путаницы. Конечно, было бы здорово, если бы он был максимально незаметным для глаза. 🔍
Якуб
Я уже вижу, как Gemini 1.5 Pro и Imagen 2 будут использоваться в образовании. Представьте, насколько интереснее станут уроки с помощью этих инструментов! Ученики смогут лучше усваивать материал благодаря наглядности и интерактивности. 👩🏫
Франческа
Как разработчик, я с нетерпением жду возможности поработать с Gemini 1.5 Pro и Imagen 2. Их мощные возможности позволят создавать действительно инновационные приложения и сервисы. Это настоящий прорыв в области технологий! 💻🚀
Андрей
Не могу не заметить, что все эти обновления - лишь верхушка айсберга. Google продолжает активно развивать свои AI-технологии, и я уверен, что в ближайшем будущем нас ждут еще более впечатляющие анонсы. Эпоха искусственного интеллекта только начинается! ⚡