Cómo Google Gemini 1.5 Pro aprendió a escuchar y Vertex AI creó un diseñador de bots
Google anunció actualizaciones significativas en su lenguaje y modelos generativos: Gemini 1.5 Pro ahora podrá procesar audio y video sin necesidad de transcripción, e Imagen 2 obtendrá capacidades de edición de imágenes y etiquetado invisible. capacidades.
Google AI
Gemini 1.5 Pro
El modelo de lenguaje más grande de Google, Gemini 1.5 Pro, ha sido actualizado y ahora capaz de reconocer voz en audio y video sin descargar transcripciones de texto. Esto permitirá a los usuarios comunicarse directamente con el modelo y recibir respuestas basadas en datos de audio. Gemini 1.5 Pro se presentó en febrero y supera en prestaciones a otros modelos de la compañía. Su principal ventaja es la capacidad de procesar una gran cantidad de contexto, desde 128.000 hasta un millón de tokens, muchas veces más que competidores como GPT-4 de OpenAI.
Imagen 2
Google también ha mejorado su modelo generativo Imagen, que se encarga de creación de imágenes basadas en solicitudes de texto. La nueva versión de Imagen 2 ha recibido funciones de "inpainting" y "outpainting", que le permiten agregar o eliminar elementos de las imágenes generadas. Además, todas las imágenes generadas por el modelo ahora se pueden marcar con una marca de agua invisible SynthID, que indica su origen artificial.
Vertex AI
Los modelos actualizados estarán disponibles en la nueva plataforma en la nube Vertex AI diseñada para clientes empresariales de Google. Con su ayuda, las empresas podrán crear sus propios chatbots e integrarlos en sus productos y servicios.
Glosario
- Google es la mayor empresa de tecnología, desarrolladora de un motor de búsqueda y diversos servicios
- Gemini: la línea de modelos de lenguaje de Google para el procesamiento del lenguaje natural
- Imagen: el modelo generativo de Google para crear imágenes a partir de descripciones de texto
- Vertex AI: plataforma en la nube para crear e implementar modelos de IA
Enlaces
Respuestas a las preguntas
¿Qué hay de nuevo en Gemini 1.5 Pro?
¿Qué mejoras ha recibido Imagen 2?
¿Dónde estarán disponibles los modelos Gemini e Imagen actualizados?
¿En qué se diferencia Gemini 1.5 Pro de otros modelos de idiomas?
¿Cuáles son los términos clave asociados con los nuevos modelos de Google?
Hashtags
Guardar un enlace a este articulo
Discusion del tema – Cómo Google Gemini 1.5 Pro aprendió a escuchar y Vertex AI creó un diseñador de bots
En la conferencia Google Next, la compañía anunció que Gemini 1.5 Pro ahora admite el reconocimiento de voz de audio, video y llamadas telefónicas sin transcripción. También se presentó la plataforma Vertex AI para la creación de bots.
Ultimos comentarios
14 comentarios
Escribir un comentario
Su dirección de correo electrónico no se publicará. Los campos obligatorios están marcados *
Михаил
Gemini 1.5 Pro es otro avance en el campo del procesamiento del lenguaje natural. La capacidad de comprender audio sin necesidad de transcripción abre nuevos horizontes para los asistentes de voz y los chatbots. 🎉
Катя
¡Sí, eso es impresionante! Pero estoy más interesado en la nueva función de pintura en Imagen 2. Imagínese, ahora puede eliminar o agregar elementos a las imágenes fácilmente. Esto será útil para proyectos creativos y edición de fotografías. 🖼️
Ян
¡Buenas noticias para los desarrolladores! Con la cantidad de contexto que Gemini 1.5 Pro puede manejar, crear aplicaciones más complejas y avanzadas será mucho más fácil. No puedo esperar para probarlo en la práctica. 💻
Анна
La marca de agua SynthID es una buena idea para imágenes generativas de IA. Esto ayudará a distinguirlas de fotografías reales y protegerá los derechos de autor. Pero espero que no se note demasiado y no arruine la impresión general de la imagen. 🖌️
Виктор
Estas actualizaciones son un paso más hacia una mayor integración de la inteligencia artificial en nuestra vida diaria. Espero usar Gemini 1.5 Pro e Imagen 2 para automatizar tareas rutinarias y crear contenido único. 🚀
Ганс
Como un viejo cascarrabias, soy escéptico ante todas estas tendencias novedosas. ¿Por qué necesitamos inteligencia artificial si tenemos personas que pueden realizar las mismas tareas? Es sólo otro juguete inútil para los desarrolladores. 🙄
София
Hans, entiendo tu preocupación, pero el progreso no se puede detener. Con herramientas como Gemini 1.5 Pro e Imagen 2, podemos automatizar tareas rutinarias y centrarnos en un trabajo más creativo e inteligente. Esta es una oportunidad para la humanidad, no una amenaza. 🌟
Лукаш
Ya puedo imaginarme cómo se utilizará Gemini 1.5 Pro en el servicio de atención al cliente. La capacidad de comprender consultas de voz y proporcionar información relevante en tiempo real es un verdadero avance. Los clientes estarán satisfechos con el servicio rápido y eficiente. 🤖
Мария
Estoy deseando utilizar Imagen 2 para crear ilustraciones únicas para mis proyectos. ¡Las funciones de pintura interior y exterior abren muchísimas posibilidades creativas! 🎨
Давид
No puedo evitar estar de acuerdo con Mikhail. Procesar audio sin transcripción es un gran paso adelante. Imagínese cómo esto facilitará la interacción con asistentes de voz en automóviles o relojes inteligentes. ¡La tecnología realmente está cambiando nuestras vidas! ⌚
Елена
Me gusta la idea de la marca de agua SynthID. Esto ayudará a distinguir las imágenes generativas de las reales y evitará confusiones. Por supuesto, sería genial si fuera lo más invisible posible a la vista. 🔍
Якуб
Ya puedo ver cómo se utilizarán Gemini 1.5 Pro e Imagen 2 en educación. ¡Imagínese cuánto más interesantes serán sus lecciones con estas herramientas! Los estudiantes podrán comprender mejor el material gracias a la claridad y la interactividad. 👩🏫
Франческа
Como desarrollador, espero trabajar con Gemini 1.5 Pro e Imagen 2. Sus poderosas capacidades permitirán la creación de aplicaciones y servicios verdaderamente innovadores. ¡Este es un verdadero avance en tecnología! 💻🚀
Андрей
No puedo evitar notar que todas estas actualizaciones son sólo la punta del iceberg. Google continúa desarrollando activamente sus tecnologías de inteligencia artificial y estoy seguro de que en un futuro próximo nos esperan anuncios aún más interesantes. ¡La era de la inteligencia artificial apenas comienza! ⚡