Odkrywanie Gemini: Rodzina AI Nowej Generacji od Google
Gemini to ambitne przedsięwzięcie Google w dziedzinie modeli AI nowej generacji. Opracowany dzięki współpracy DeepMind i Google Research, wiodących laboratoriów badawczych AI Google, Gemini nie jest monolitycznym bytem, ale raczej rodziną modeli, z których każdy jest dostosowany do określonych zadań i poziomów wydajności. Ta rodzina obejmuje:
- Gemini Ultra: Najpotężniejszy model z rodziny, zaprojektowany do bardzo złożonych zadań wymagających znacznej mocy obliczeniowej. (Obecnie niedostępny)
- Gemini Pro: Solidny model, mniejszy niż Ultra, ale zdolny do obsługi szerokiego zakresu zadań. Gemini 2.0 Pro, najnowsza iteracja, jest obecnie flagowym modelem Google.
- Gemini Flash: Uproszczona, ‘wydestylowana’ wersja Pro, priorytetyzująca szybkość i wydajność.
- Gemini Flash-Lite: Nieznacznie zredukowana i szybsza wersja Gemini Flash.
- Gemini Flash Thinking: Model prezentujący zdolności ‘rozumowania’.
- Gemini Nano: Składający się z dwóch kompaktowych modeli, Nano-1 i nieco mocniejszego Nano-2, zaprojektowanych do działania offline na urządzeniach.
Charakterystyczną cechą wszystkich modeli Gemini jest ich wrodzona multimodalność. W przeciwieństwie do modeli szkolonych wyłącznie na danych tekstowych, takich jak LaMDA Google, modele Gemini są biegłe w przetwarzaniu i analizowaniu różnorodnych typów danych. Zostały one przeszkolone na ogromnym zbiorze danych obejmującym publiczne, zastrzeżone i licencjonowane audio, obrazy, wideo, kod i tekst w wielu językach.
Ta multimodalna natura pozwala Gemini przekroczyć ograniczenia modeli opartych wyłącznie na tekście. Podczas gdy LaMDA jest ograniczona do danych wejściowych i wyjściowych opartych na tekście, modele Gemini, szczególnie nowsze wersje Flash i Pro, mogą natywnie generować obrazy i dźwięk obok tekstu.
Jednak etyczne i prawne implikacje szkolenia modeli AI na publicznie dostępnych danych, często bez wyraźnej zgody właścicieli danych, pozostają złożonym problemem. Chociaż Google oferuje politykę ochrony AI, aby chronić niektórych klientów Google Cloud przed potencjalnymi pozwami, ta polityka ma ograniczenia. Użytkownicy, zwłaszcza ci, którzy zamierzają wykorzystywać Gemini do celów komercyjnych, powinni zachować ostrożność.
Aplikacje Gemini a Modele Gemini: Zrozumienie Różnicy
Kluczowe jest rozróżnienie między modelami Gemini a aplikacjami Gemini dostępnymi na platformach internetowych i mobilnych (wcześniej znanych jako Bard).
Aplikacje Gemini działają jako klienci, łącząc się z różnymi modelami Gemini i prezentując przyjazny dla użytkownika interfejs przypominający chatbota. Służą jako front-end do interakcji z możliwościami generatywnej AI Google.
Na urządzeniach z Androidem aplikacja Gemini zastępuje aplikację Google Assistant. Na iOS, aplikacje Google i Google Search działają jako klienci Gemini.
Użytkownicy Androida mogą wywołać nakładkę Gemini, aby zadać pytania dotyczące treści wyświetlanych na ekranie, takich jak wideo z YouTube. Ta nakładka jest uruchamiana przez naciśnięcie i przytrzymanie przycisku zasilania obsługiwanego smartfona lub za pomocą polecenia głosowego ‘Hej Google’.
Aplikacje Gemini są wszechstronne, akceptując obrazy, polecenia głosowe i tekst jako dane wejściowe. Mogą przetwarzać pliki, takie jak PDF, przesłane bezpośrednio lub zaimportowane z Dysku Google, i generować obrazy. Rozmowy rozpoczęte z aplikacjami Gemini na urządzeniach mobilnych płynnie synchronizują się z Gemini w Internecie, pod warunkiem, że użytkownik jest zalogowany na to samo konto Google.
Gemini Advanced: Odblokowywanie Funkcji AI Premium
Aplikacje Gemini nie są jedyną bramą do wykorzystania mocy modeli Gemini. Google stopniowo integruje funkcje oparte na Gemini ze swoimi podstawowymi aplikacjami i usługami, w tym Gmail i Dokumenty Google.
Aby w pełni wykorzystać te możliwości, użytkownicy zazwyczaj potrzebują planu Google One AI Premium. Ten plan, technicznie będący składnikiem Google One, kosztuje 20 USD miesięcznie i zapewnia dostęp do Gemini w aplikacjach Google Workspace, takich jak Dokumenty, Mapy, Slajdy, Arkusze, Dysk i Meet. Odblokowuje również ‘Gemini Advanced’, zapewniając dostęp do bardziej zaawansowanych modeli Gemini Google w aplikacjach Gemini.
Użytkownicy Gemini Advanced korzystają z dodatkowych korzyści, takich jak priorytetowy dostęp do nowych funkcji i modeli, możliwość wykonywania i modyfikowania kodu Python bezpośrednio w Gemini oraz rozszerzone limity dla NotebookLM, narzędzia Google do przekształcania plików PDF w podcasty generowane przez AI. Niedawnym dodatkiem do Gemini Advanced jest funkcja pamięci, która przechowuje preferencje użytkownika i umożliwia Gemini odwoływanie się do poprzednich rozmów, zapewniając kontekst dla bieżących interakcji.
Jedną z najbardziej atrakcyjnych funkcji dostępnych wyłącznie w Gemini Advanced jest ‘Deep Research’. Ta funkcja wykorzystuje modele Gemini z ulepszonymi możliwościami rozumowania do generowania szczegółowych opracowań. W odpowiedzi na zapytanie, takie jak ‘Jak powinienem przeprojektować moją kuchnię?’, Deep Research formułuje wieloetapowy plan badań, przeszukuje sieć i kompiluje kompleksową odpowiedź.
W Gmailu Gemini znajduje się w panelu bocznym, umożliwiając tworzenie wiadomości e-mail i podsumowywanie wątków wiadomości. Podobny panel pojawia się w Dokumentach, pomagając w pisaniu, udoskonalaniu i burzy mózgów. W Slajdach Gemini generuje slajdy i niestandardowe obrazy. W Arkuszach Google pomaga w śledzeniu danych, organizacji i tworzeniu formuł.
Obecność Gemini rozciąga się na Mapy Google, gdzie agreguje recenzje o lokalnych firmach i oferuje rekomendacje, takie jak sugestie tras zwiedzania obcego miasta. Możliwości chatbota obejmują również Dysk, gdzie może podsumowywać pliki i foldery oraz dostarczać zwięzłe informacje o projektach.
Gemini został niedawno zintegrowany z przeglądarką Chrome Google jako narzędzie do pisania AI. To narzędzie może być używane do tworzenia całkowicie nowej treści lub przepisywania istniejącego tekstu, biorąc pod uwagę kontekst bieżącej strony internetowej, aby zapewnić dostosowane rekomendacje.
Poza tymi podstawowymi aplikacjami, ślady Gemini można znaleźć w produktach baz danych Google, narzędziach bezpieczeństwa w chmurze i platformach do tworzenia aplikacji (w tym Firebase i Project IDX). Zasila również funkcje w aplikacjach takich jak Zdjęcia Google (wyszukiwanie w języku naturalnym), YouTube (burza mózgów pomysłów na wideo) i Meet (tłumaczenie napisów).
Code Assist (wcześniej Duet AI for Developers), pakiet narzędzi Google opartych na AI do uzupełniania i generowania kodu, opiera się na Gemini w przypadku zadań wymagających dużej mocy obliczeniowej. Podobnie, produkty bezpieczeństwa Google, takie jak Gemini in Threat Intelligence, wykorzystują Gemini do analizowania potencjalnie złośliwego kodu i ułatwiania wyszukiwania zagrożeń i wskaźników naruszenia bezpieczeństwa w języku naturalnym.
Rozszerzenia Gemini i Gems: Dostosowywanie Doświadczenia AI
Użytkownicy Gemini Advanced mają możliwość tworzenia ‘Gems’, niestandardowych chatbotów opartych na modelach Gemini, dostępnych zarówno na platformach stacjonarnych, jak i mobilnych. Gems można generować z opisów w języku naturalnym, takich jak ‘Jesteś moim trenerem biegania. Daj mi codzienny plan biegania’, i można je udostępniać innym użytkownikom lub zachować prywatność.
Aplikacje Gemini mogą integrować się z różnymi usługami Google za pośrednictwem ‘rozszerzeń Gemini’. Te rozszerzenia umożliwiają Gemini interakcję z Dyskiem, Gmailem, YouTube i innymi usługami, pozwalając mu odpowiadać na zapytania takie jak ‘Czy mógłbyś podsumować moje ostatnie trzy e-maile?’.
Gemini Live: Angażowanie się w Szczegółowe Rozmowy Głosowe
‘Gemini Live’ oferuje wciągające doświadczenie, pozwalając użytkownikom na prowadzenie szczegółowych rozmów głosowych z Gemini. Ta funkcja jest dostępna w aplikacjach Gemini na urządzeniach mobilnych oraz na Pixel Buds Pro 2, gdzie można uzyskać do niej dostęp nawet przy zablokowanym telefonie.
Dzięki Gemini Live użytkownicy mogą przerywać Gemini, gdy mówi, aby zadać pytania wyjaśniające, a chatbot dostosowuje się do wzorców mowy w czasie rzeczywistym. Live jest również zaprojektowany, aby funkcjonować jako wirtualny trener, pomagając w przygotowaniu do wydarzeń, burzy mózgów i innych zadaniach. Na przykład Live może sugerować umiejętności, które należy podkreślić podczas rozmowy kwalifikacyjnej, i udzielać wskazówek dotyczących wystąpień publicznych.
Gemini dla Nastolatków: Dostosowane Doświadczenie AI dla Uczniów
Google zapewnia wyspecjalizowane doświadczenie Gemini dostosowane do nastoletnich uczniów.
Ta wersja Gemini skoncentrowana na nastolatkach zawiera ‘dodatkowe zasady i zabezpieczenia’, w tym dostosowany proces wdrażania i przewodnik po umiejętnościach AI. Poza tymi modyfikacjami, jest bardzo podobna do standardowego doświadczenia Gemini, w tym funkcja ‘podwójnego sprawdzenia’, która weryfikuje dokładność odpowiedzi Gemini, odwołując się do informacji w Internecie.
Odkrywanie Możliwości Modeli Gemini
Multimodalna natura modeli Gemini umożliwia im wykonywanie szerokiego zakresu zadań, od transkrypcji mowy po podpisywanie obrazów i wideo w czasie rzeczywistym. Wiele z tych możliwości zostało już włączonych do produktów Google, a dalsze ulepszenia są obiecane w najbliższej przyszłości.
Należy jednak przyznać, że Google, podobnie jak jego konkurenci, nie w pełni rozwiązał niektórych nieodłącznych problemów związanych z technologią generatywnej AI, takich jak zakodowane uprzedzenia i tendencja do fabrykowania informacji (halucynacje). Te ograniczenia należy wziąć pod uwagę podczas oceny wykorzystania Gemini, szczególnie w przypadku krytycznych zastosowań.
Potęga Gemini Pro
Google twierdzi, że jego najnowszy model Pro, Gemini 2.0 Pro, stanowi jego najbardziej zaawansowaną ofertę do kodowania i obsługi złożonych zapytań. 2.0 Pro przewyższa swojego poprzednika, Gemini 1.5 Pro, w testach oceniających programowanie, rozumowanie, matematykę i dokładność faktów.
W ramach platformy Vertex AI Google deweloperzy mogą dostosowywać Gemini Pro do określonych kontekstów i przypadków użycia poprzez dostrajanie lub ‘uziemianie’. Na przykład Pro (wraz z innymi modelami Gemini) może być instruowany, aby wykorzystywać dane od zewnętrznych dostawców, takich jak Moody’s, Thomson Reuters, ZoomInfo i MSCI, lub aby pozyskiwać informacje z korporacyjnych zbiorów danych lub Wyszukiwarki Google zamiast z szerszej bazy wiedzy. Gemini Pro można również połączyć z zewnętrznymi, zewnętrznymi interfejsami API, aby wykonywać określone czynności, takie jak automatyzacja procesów back-office.
Platforma AI Studio Google udostępnia szablony do tworzenia ustrukturyzowanych zapytań czatu z Pro. Deweloperzy mogą kontrolować zakres kreatywności modelu, podawać przykłady, aby kierować tonem i stylem, oraz dostosowywać ustawienia bezpieczeństwa Pro.
Gemini Flash: Lekka Wydajność i Zdolności Rozumowania Gemini Flash Thinking
Gemini 2.0 Flash jest w stanie korzystać z wyszukiwarki Google i innych zewnętrznych interfejsów API. Mimo że jest mniejszy, przewyższa niektóre z większych modeli 1.5 w testach mierzących kodowanie i analizę obrazu. Jako pochodna Gemini Pro, Flash jest zaprojektowany z myślą o wydajności, ukierunkowany na wąskie, częste zadania generatywnej AI.
Google podkreśla przydatność Flash do zastosowań takich jak podsumowywanie, aplikacje czatu, podpisywanie obrazów i wideo oraz ekstrakcja danych z długich dokumentów i tabel. Tymczasem Gemini 2.0 Flash-Lite, bardziej kompaktowa iteracja Flash, przewyższa Gemini 1.5 Flash pod względem wydajności, zachowując tę samą cenę i szybkość, według Google.
W grudniu ubiegłego roku Google wprowadził ‘myślący’ wariant Gemini 2.0 Flash, wyposażony w zdolności ‘rozumowania’. Ten model AI potrzebuje kilku sekund, aby przeanalizować problem wstecz, zanim udzieli odpowiedzi, potencjalnie zwiększając jego niezawodność.
Gemini Nano: Moc AI na Urządzeniu
Gemini Nano to niezwykle kompaktowa wersja Gemini, zaprojektowana do działania bezpośrednio na kompatybilnych urządzeniach, eliminując potrzebę wysyłania zadań do zdalnego serwera. Obecnie Nano zasila kilka funkcji na Pixel 8 Pro, Pixel 8, Pixel 9 Pro, Pixel 9 i Samsung Galaxy S24, w tym Podsumowanie w Rejestratorze i Inteligentna odpowiedź w Gboard.
Aplikacja Rejestrator, która umożliwia użytkownikom nagrywanie i transkrypcję dźwięku, zawiera funkcję podsumowywania opartą na Gemini dla nagranych rozmów, wywiadów, prezentacji i innych fragmentów audio. Te podsumowania są generowane nawet bez połączenia z siecią, a w trosce o prywatność żadne dane nie opuszczają urządzenia użytkownika podczas tego procesu.
Nano znajduje również swoje miejsce w Gboard, zamienniku klawiatury Google, gdzie zasila Inteligentną odpowiedź. Ta funkcja sugeruje odpowiedzi w aplikacjach do przesyłania wiadomości, takich jak WhatsApp, usprawniając rozmowy.
Przyszła iteracja Androida ma wykorzystywać Nano do ostrzegania użytkowników o potencjalnych oszustwach podczas rozmów telefonicznych. Nowa aplikacja pogodowa na telefonach Pixel wykorzystuje Gemini Nano do generowania spersonalizowanych raportów pogodowych. Dodatkowo TalkBack, usługa ułatwień dostępu Google, wykorzystuje Nano do tworzenia słuchowych opisów obiektów dla użytkowników z wadami wzroku.
Gemini Ultra: Oczekiwanie na Powrót
Gemini Ultra był stosunkowo nieobecny w centrum uwagi w ostatnich miesiącach. Model nie jest obecnie dostępny w aplikacjach Gemini, ani nie jest wymieniony na stronie z cenami Gemini API Google. Nie wyklucza to jednak możliwości, że Google ponownie wprowadzi Ultra w przyszłości.
Struktura Cenowa dla Modeli Gemini
Gemini 1.5 Pro, 1.5 Flash, 2.0 Flash i 2.0 Flash-Lite są dostępne za pośrednictwem Gemini API Google do tworzenia aplikacji i usług. Działają one na zasadzie pay-as-you-go. Podstawowe ceny, z wyłączeniem dodatków, na dzień 22 lutego 2025 r., są następujące:
- Gemini 1.5 Pro: 1,25 USD za 1 milion tokenów wejściowych (dla zapytań do 128 tys. tokenów) lub 2,50 USD za 1 milion tokenów wejściowych (dla zapytań dłuższych niż 128 tys. tokenów); 5 USD za 1 milion tokenów wyjściowych (dla zapytań do 128 tys. tokenów) lub 10 USD za 1 milion tokenów wyjściowych (dla zapytań dłuższych niż 128 tys. tokenów)
- Gemini 1.5 Flash: 7,5 centa za 1 milion tokenów wejściowych (dla zapytań do 128 tys. tokenów), 15 centów za 1 milion tokenów wejściowych (dla zapytań dłuższych niż 128 tys. tokenów), 30 centów za 1 milion tokenów wyjściowych (dla zapytań do 128 tys. tokenów), 60 centów za 1 milion tokenów wyjściowych (dla zapytań dłuższych niż 128 tys. tokenów)
- Gemini 2.0 Flash: 10 centów za 1 milion tokenów wejściowych, 40 centów za 1 milion tokenów wyjściowych. Dla audio, 70 centów za 1 milion tokenów wejściowych.
- Gemini 2.0 Flash-Lite: 7,5 centa za 1 milion tokenów wejściowych, 30 centów za 1 milion tokenów wyjściowych.
Tokeny reprezentują podzielone jednostki surowych danych, takie jak sylaby ‘fan’, ‘tas’ i ‘tic’ w słowie ‘fantastic’. Jeden milion tokenów odpowiada mniej więcej 750 000 słów. ‘Wejście’ odnosi się do tokenów wprowadzanych do modelu, podczas gdy ‘wyjście’ oznacza tokeny generowane przez model.
Ceny dla 2.0 Pro nie zostały jeszcze ogłoszone, a Nano pozostaje we wczesnym dostępie.
Potencjalne Pojawienie się Gemini na iPhonie
Perspektywa integracji Gemini z iPhone’ami jest wyraźną możliwością.
Apple wskazało, że prowadzi rozmowy w celu potencjalnego wykorzystania Gemini i innych modeli stron trzecich do różnych funkcji w ramach pakietu Apple Intelligence. Po prezentacji na WWDC 2024, wiceprezes Apple Craig Federighi potwierdził plany współpracy z modelami, w tym Gemini, ale powstrzymał się od ujawniania dalszych szczegółów.