Wie Google Gemini 1.5 Pro das Hören lernte und Vertex AI einen Bot-Designer erstellte
Google kündigte bedeutende Aktualisierungen seiner Sprach- und generativen Modelle an: Gemini 1.5 Pro wird nun in der Lage sein, Audio und Video ohne Transkription zu verarbeiten, und Imagen 2 wird Bildbearbeitungsfunktionen und unsichtbares Tagging erhalten Fähigkeiten.
Google AI
Gemini 1.5 Pro
Googles größtes Sprachmodell Gemini 1.5 Pro wurde aktualisiert und ist jetzt in der Lage, Sprache aus Audio und Video zu erkennen, ohne Texttranskripte herunterladen zu müssen. Dadurch können Benutzer direkt mit dem Modell kommunizieren und Antworten basierend auf Audiodaten erhalten. Gemini 1.5 Pro wurde im Februar vorgestellt und ist anderen Modellen des Unternehmens leistungsmäßig überlegen. Sein Hauptvorteil ist die Fähigkeit, eine große Menge an Kontext von 128.000 bis zu einer Million Token zu verarbeiten, was um ein Vielfaches mehr ist als bei Konkurrenten wie GPT-4 von OpenAI.
Imagen 2
Google hat auch sein generatives Modell Imagen verbessert, für das verantwortlich ist Erstellen von Bildern basierend auf Textanfragen. Die neue Version von Imagen 2 verfügt über „Inpainting“- und „Outpainting“-Funktionen, mit denen Sie Elemente zu den generierten Bildern hinzufügen oder daraus entfernen können. Darüber hinaus können nun alle vom Modell generierten Bilder mit einem unsichtbaren SynthID-Wasserzeichen markiert werden, das auf ihren künstlichen Ursprung hinweist.
Vertex AI
Aktualisierte Modelle werden auf der neuen Vertex AI-Cloud-Plattform verfügbar sein für Google-Geschäftskunden. Mit seiner Hilfe können Unternehmen eigene Chatbots erstellen und diese in ihre Produkte und Dienstleistungen integrieren.
Glossar
- Google ist das größte Technologieunternehmen, Entwickler einer Suchmaschine und verschiedener Dienste
- Gemini – Googles Reihe von Sprachmodellen für die Verarbeitung natürlicher Sprache
- Imagen – Googles generatives Modell zum Erstellen von Bildern aus Textbeschreibungen
- Vertex AI – Cloud-Plattform zum Erstellen und Bereitstellung von KI-Modellen
Links
Antworten auf Fragen
Was ist neu in Gemini 1.5 Pro?
Welche Verbesserungen hat Imagen 2 erhalten?
Wo werden die aktualisierten Gemini- und Imagen-Modelle verfügbar sein?
Wie unterscheidet sich Gemini 1.5 Pro von anderen Sprachmodellen?
Welche Schlüsselbegriffe sind mit den neuen Modellen von Google verbunden?
Hashtags
Den Link zu diesem Artikel speichern
Diskussion über das Thema – Wie Google Gemini 1.5 Pro das Hören lernte und Vertex AI einen Bot-Designer erstellte
Auf der Google Next-Konferenz gab das Unternehmen bekannt, dass Gemini 1.5 Pro jetzt die Spracherkennung von Audio-, Video- und Telefonanrufen ohne Transkription unterstützt. Außerdem wurde die Vertex AI-Plattform zur Erstellung von Bots vorgestellt.
Letzte Kommentare
14 Kommentare
Kommentar schreiben
Ihre E-Mail Adresse wird nicht veröffentlicht. Erforderliche Felder sind angekreuzt *
Михаил
Gemini 1.5 Pro ist ein weiterer Durchbruch im Bereich der Verarbeitung natürlicher Sprache. Die Fähigkeit, Audio zu verstehen, ohne dass eine Transkription erforderlich ist, eröffnet Sprachassistenten und Chatbots neue Horizonte. 🎉
Катя
Ja, das ist beeindruckend! Aber ich interessiere mich mehr für die neue Inpainting-Funktion in Imagen 2. Stellen Sie sich vor, Sie können jetzt ganz einfach Elemente zu Bildern entfernen oder hinzufügen. Dies wird für kreative Projekte und Fotobearbeitung nützlich sein. 🖼️
Ян
Tolle Neuigkeiten für Entwickler! Mit der Menge an Kontext, die Gemini 1.5 Pro verarbeiten kann, wird die Erstellung komplexerer und komplexerer Anwendungen viel einfacher. Ich kann es kaum erwarten, es in der Praxis auszuprobieren. 💻
Анна
Das SynthID-Wasserzeichen ist eine gute Idee für generative KI-Bilder. Dies trägt dazu bei, sie von echten Fotos zu unterscheiden und das Urheberrecht zu schützen. Ich hoffe aber, dass es nicht zu sehr auffällt und den Gesamteindruck des Bildes nicht beeinträchtigt. 🖌️
Виктор
Diese Updates sind ein weiterer Schritt hin zu einer stärkeren Integration künstlicher Intelligenz in unser tägliches Leben. Ich freue mich darauf, Gemini 1.5 Pro und Imagen 2 zu verwenden, um Routineaufgaben zu automatisieren und einzigartige Inhalte zu erstellen. 🚀
Ганс
Wie ein alter Geizhals stehe ich all diesen neumodischen Trends skeptisch gegenüber. Warum brauchen wir künstliche Intelligenz, wenn wir Menschen haben, die die gleichen Aufgaben erledigen können? Es ist nur ein weiteres nutzloses Spielzeug für Entwickler. 🙄
София
Hans, ich verstehe deine Sorge, aber der Fortschritt ist nicht aufzuhalten. Mit Tools wie Gemini 1.5 Pro und Imagen 2 können wir Routineaufgaben automatisieren und uns auf kreativere und intelligentere Arbeit konzentrieren. Dies ist eine Chance für die Menschheit, keine Bedrohung. 🌟
Лукаш
Ich kann mir schon vorstellen, wie Gemini 1.5 Pro im Kundenservice eingesetzt wird. Die Fähigkeit, Sprachanfragen zu verstehen und relevante Informationen in Echtzeit bereitzustellen, ist ein echter Durchbruch. Kunden werden mit dem schnellen und effizienten Service zufrieden sein. 🤖
Мария
Ich freue mich darauf, mit Imagen 2 einzigartige Illustrationen für meine Projekte zu erstellen. Die Inpainting- und Outpainting-Funktionen eröffnen so viele kreative Möglichkeiten! 🎨
Давид
Ich kann nicht anders, als Mikhail zuzustimmen. Die Audioverarbeitung ohne Transkription ist ein großer Fortschritt. Stellen Sie sich vor, wie dadurch die Interaktion mit Sprachassistenten in Autos oder Smartwatches einfacher wird. Technologie verändert unser Leben wirklich! ⌚
Елена
Mir gefällt die Idee mit dem SynthID-Wasserzeichen. Dies wird dazu beitragen, generative Bilder von echten zu unterscheiden und Verwirrung zu vermeiden. Natürlich wäre es toll, wenn es für das Auge möglichst unsichtbar wäre. 🔍
Якуб
Ich kann mir bereits vorstellen, wie Gemini 1.5 Pro und Imagen 2 im Bildungsbereich eingesetzt werden. Stellen Sie sich vor, wie viel interessanter Ihr Unterricht mit diesen Tools sein wird! Dank der Klarheit und Interaktivität können die Schüler den Stoff besser verstehen. 👩🏫
Франческа
Als Entwickler freue ich mich auf die Zusammenarbeit mit Gemini 1.5 Pro und Imagen 2. Ihre leistungsstarken Funktionen werden die Erstellung wirklich innovativer Anwendungen und Dienste ermöglichen. Das ist ein echter Durchbruch in der Technologie! 💻🚀
Андрей
Ich komme nicht umhin zu bemerken, dass all diese Updates nur die Spitze des Eisbergs sind. Google entwickelt seine KI-Technologien weiterhin aktiv weiter und ich bin zuversichtlich, dass uns in naher Zukunft noch weitere spannende Ankündigungen erwarten. Die Ära der künstlichen Intelligenz beginnt gerade erst! ⚡