Jak Google Gemini 1.5 Pro nauczyło się słyszeć, a Vertex AI stworzył projektanta bota
Google ogłosiło istotne aktualizacje swoich modeli językowych i generatywnych: Gemini 1.5 Pro będzie teraz w stanie przetwarzać dźwięk i wideo bez konieczności transkrypcji, a Imagen 2 zyska możliwości edycji obrazów i niewidoczne tagowanie możliwości.
Google AI
Gemini 1.5 Pro
Największy model językowy Google Gemini 1.5 Pro został zaktualizowany a teraz potrafi rozpoznawać mowę z plików audio i wideo bez konieczności pobierania transkrypcji tekstu. Umożliwi to użytkownikom bezpośrednią komunikację z modelem i otrzymywanie odpowiedzi na podstawie danych dźwiękowych. Gemini 1.5 Pro został zaprezentowany w lutym i pod względem wydajności przewyższa inne modele tej firmy. Jego główną zaletą jest możliwość przetworzenia ogromnej ilości kontekstu od 128 000 do miliona tokenów, czyli wielokrotnie więcej niż konkurenci pokroju GPT-4 z OpenAI.
Imagen 2
Google ulepszyło także swój model generatywny Imagen, który jest odpowiedzialny za tworzenie obrazów na podstawie żądań tekstowych. Nowa wersja Imagen 2 otrzymała funkcje „inpainting” i „outpainting”, umożliwiające dodawanie lub usuwanie elementów z wygenerowanych obrazów. Ponadto wszystkie obrazy wygenerowane przez model można teraz oznaczyć niewidocznym znakiem wodnym SynthID, wskazującym na ich sztuczne pochodzenie.
Vertex AI
Zaktualizowane modele będą dostępne na nowej platformie chmurowej Vertex AI zaprojektowanej dla klientów biznesowych Google. Za jego pomocą firmy będą mogły tworzyć własne chatboty i integrować je ze swoimi produktami i usługami.
Słowniczek
- Google to największa firma technologiczna, twórca wyszukiwarek i różnych usług
- Gemini - linia modeli językowych Google do przetwarzania języka naturalnego
- Imagen - generatywny model Google do tworzenia obrazów z opisów tekstowych
- Vertex AI - platforma chmurowa do tworzenia i wdrażanie modeli AI
Linki
Odpowiedzi na pytania
Co nowego w Gemini 1.5 Pro?
Jakie ulepszenia wprowadzono w Imagen 2?
Gdzie będą dostępne zaktualizowane modele Gemini i Imagen?
Czym Gemini 1.5 Pro różni się od innych modeli językowych?
Jakie są kluczowe terminy związane z nowymi modelami Google?
Hashtagi
Zapisz link do tego artykulu
Dyskusja na ten temat – Jak Google Gemini 1.5 Pro nauczyło się słyszeć, a Vertex AI stworzył projektanta bota
Na konferencji Google Next firma ogłosiła, że Gemini 1.5 Pro obsługuje teraz rozpoznawanie mowy z rozmów audio, wideo i telefonicznych bez transkrypcji. Zaprezentowano także platformę Vertex AI do tworzenia botów.
Najnowsze komentarze
14 komentarzy
Napisz komentarz
Twój adres e-mail nie zostanie opublikowany. Wymagane pola są zaznaczone *
Михаил
Gemini 1.5 Pro to kolejny przełom w dziedzinie przetwarzania języka naturalnego. Możliwość zrozumienia dźwięku bez konieczności transkrypcji otwiera nowe horyzonty dla asystentów głosowych i chatbotów. 🎉
Катя
Tak, to robi wrażenie! Ale bardziej interesuje mnie nowa funkcja malowania w Imagen 2. Wyobraź sobie, że teraz możesz łatwo usuwać lub dodawać elementy do obrazów. Przyda się to przy kreatywnych projektach i edycji zdjęć. 🖼️
Ян
Świetna wiadomość dla programistów! Dzięki ilości kontekstu, z jakim poradzi sobie Gemini 1.5 Pro, tworzenie bardziej złożonych i zaawansowanych aplikacji stanie się znacznie łatwiejsze. Nie mogę się doczekać, aby wypróbować to w praktyce. 💻
Анна
Znak wodny SynthID to dobry pomysł w przypadku generatywnych obrazów AI. Pomoże to odróżnić je od prawdziwych zdjęć i ochroni prawa autorskie. Mam jednak nadzieję, że nie będzie to zbyt zauważalne i nie zepsuje ogólnego wrażenia obrazu. 🖌️
Виктор
Aktualizacje te stanowią kolejny krok w kierunku większej integracji sztucznej inteligencji z naszym codziennym życiem. Nie mogę się doczekać, aż będę mógł używać Gemini 1.5 Pro i Imagen 2 do automatyzacji rutynowych zadań i tworzenia unikalnych treści. 🚀
Ганс
Jak stary zrzęda jestem sceptyczny wobec tych wszystkich nowomodnych trendów. Po co nam sztuczna inteligencja, skoro mamy ludzi, którzy potrafią wykonywać te same zadania? To tylko kolejna bezużyteczna zabawka dla programistów. 🙄
София
Hans, rozumiem Twoje obawy, ale postępu nie można zatrzymać. Dzięki narzędziom takim jak Gemini 1.5 Pro i Imagen 2 możemy zautomatyzować rutynowe zadania i skupić się na bardziej kreatywnej i inteligentnej pracy. To szansa dla ludzkości, a nie zagrożenie. 🌟
Лукаш
Już sobie wyobrażam, jak Gemini 1.5 Pro sprawdzi się w obsłudze klienta. Możliwość rozumienia zapytań głosowych i przekazywania odpowiednich informacji w czasie rzeczywistym to prawdziwy przełom. Klienci będą zadowoleni z szybkiej i sprawnej obsługi. 🤖
Мария
Nie mogę się doczekać wykorzystania Imagen 2 do tworzenia unikalnych ilustracji do moich projektów. Funkcje inpainting i outpainting otwierają tak wiele kreatywnych możliwości! 🎨
Давид
Nie sposób nie zgodzić się z Michaiłem. Przetwarzanie dźwięku bez transkrypcji to ogromny krok naprzód. Wyobraź sobie, jak ułatwi to interakcję z asystentami głosowymi w samochodach lub smartwatchach. Technologia naprawdę zmienia nasze życie! ⌚
Елена
Podoba mi się pomysł znaku wodnego SynthID. Pomoże to odróżnić obrazy generatywne od rzeczywistych i uniknąć nieporozumień. Oczywiście byłoby super, gdyby był jak najbardziej niewidoczny dla oka. 🔍
Якуб
Już widzę, jak Gemini 1.5 Pro i Imagen 2 znajdą zastosowanie w edukacji. Wyobraź sobie, o ile ciekawsze będą Twoje lekcje dzięki tym narzędziom! Dzięki przejrzystości i interaktywności uczniowie będą mogli lepiej zrozumieć materiał. 👩🏫
Франческа
Jako programista nie mogę się doczekać współpracy z Gemini 1.5 Pro i Imagen 2. Ich potężne możliwości umożliwią tworzenie naprawdę innowacyjnych aplikacji i usług. To prawdziwy przełom technologiczny! 💻🚀
Андрей
Nie mogę nie zauważyć, że wszystkie te aktualizacje to tylko wierzchołek góry lodowej. Google w dalszym ciągu aktywnie rozwija swoje technologie AI i jestem pewien, że w najbliższej przyszłości czekają nas jeszcze bardziej ekscytujące zapowiedzi. Era sztucznej inteligencji dopiero się zaczyna! ⚡