Gemini Live: AI w aparacie na iOS

Tryb kamery Gemini Live to znaczący krok naprzód w ewolucji sztucznej inteligencji, który przynosi nam realny kawałek przyszłości. Początkowo dostępny dla użytkowników Pixel 9 i Samsung Galaxy S25, dzięki niedawnej zapowiedzi Google na konferencji I/O funkcja jest dostępna dla szerszego grona odbiorców, zarówno Androida, jak i iOS. Jest to szczególnie ekscytujące dla użytkowników iPhone’ów, którzy mogą teraz doświadczyć jednej z najbardziej obiecujących funkcji AI, biorąc pod uwagę, że tryb kamery został pierwotnie udostępniony użytkownikom Androida w kwietniu.

Odkrywanie potęgi widzenia: Jak działa tryb kamery Gemini

Tryb kamery Gemini Live, u podstaw, daje sztucznej inteligencji możliwość "widzenia", rozpoznawania i identyfikowania obiektów znajdujących się w kadrze kamery. To nie tylko powierzchowny trik; to potężne narzędzie, które pozwala użytkownikom w bardziej intuicyjny i informatywny sposób wchodzić w interakcje z otoczeniem.

Oprócz prostego rozpoznawania obiektów, Gemini może odpowiadać na pytania dotyczące zidentyfikowanych przedmiotów, dostarczając kontekstu i informacji na żądanie. Ponadto, użytkownicy mogą udostępniać swój ekran Gemini, pozwalając AI na analizę i identyfikację elementów wyświetlanych na ekranie telefonu. Aby rozpocząć sesję na żywo z trybem kamery, użytkownicy po prostu włączają widok kamery na żywo, umożliwiając im prowadzenie rozmowy z chatbotem na temat wszystkiego, co rejestruje kamera.

Pierwsze wrażenia: Jazda próbna z Gemini Live

Podczas mojej pierwszej fazy testów Gemini Live na Pixel 9 Pro XL byłem pod wrażeniem jego możliwości. Szczególnie pamiętne było doświadczenie, kiedy poprosiłem Gemini o zlokalizowanie moich zagubionych nożyczek.

AI odpowiedziała z niezwykłą dokładnością: "Właśnie zauważyłem twoje nożyczki na stole, obok zielonego opakowania pistacji. Widzisz je?".

Ku mojemu zaskoczeniu, Gemini miał rację. Nożyczki były dokładnie tam, gdzie wskazał, mimo że tylko przez chwilę przesunąłem kamerę przed nimi podczas 15-minutowej sesji na żywo, podczas której zasadniczo oprowadzałem chatbota AI po moim mieszkaniu.

Zaintrygowany tym początkowym sukcesem, z entuzjazmem zbadałem dalej tryb kamery. W kolejnym, bardziej rozbudowanym teście, aktywowałem funkcję i zacząłem chodzić po moim mieszkaniu, prosząc Gemini o zidentyfikowanie obiektów, które widział. Dokładnie rozpoznał różne przedmioty, w tym owoce, ChapStick i inne przedmioty codziennego użytku. Odkrycie moich nożyczek pozostało jednak najbardziej imponującą demonstracją jego możliwości.

Fakt, że Gemini zidentyfikował nożyczki bez żadnych wcześniejszych podpowiedzi, był szczególnie imponujący. AI po cichu rozpoznała ich obecność w pewnym momencie sesji i dokładnie przypomniała sobie ich lokalizację z niezwykłą precyzją. To doświadczenie naprawdę przypominało wgląd w przyszłość, skłaniając mnie do dalszych badań nad jego potencjałem.

Czerpanie inspiracji: Wizja Google dotycząca wideo AI na żywo

Moje eksperymenty z funkcją kamery Gemini Live odzwierciedlały demo zaprezentowane przez Google zeszłego lata, które oferowało pierwsze spojrzenie na te możliwości wideo AI na żywo. Demo przedstawiało Gemini przypominającego użytkownikowi, gdzie zostawił okulary, co wydawało się zbyt piękne, by mogło być prawdziwe. Jak jednak odkryłem, ten poziom dokładności był rzeczywiście osiągalny.

Gemini Live jest w stanie rozpoznać o wiele więcej niż tylko przedmioty gospodarstwa domowego. Google twierdzi, że może pomóc użytkownikom w poruszaniu się po zatłoczonych stacjach kolejowych lub identyfikowaniu nadzień w ciastkach. Może również dostarczyć głębszych informacji na temat dzieł sztuki, takich jak ich pochodzenie i czy jest to edycja limitowana.

Funkcjonalność ta wykracza poza możliwości zwykłego Google Lens. Możesz rozmawiać z AI, co jest o wiele bardziej konwersacyjne niż Google Assistant.

Google wypuścił również film na YouTube demonstrujący tę funkcję, a teraz ma ona swoją własną stronę w Google Store.

Aby rozpocząć, uruchom Gemini, włącz kamerę i zacznij rozmawiać.

Gemini Live bazuje na Projekcie Astra Google, który został zaprezentowany po raz pierwszy w zeszłym roku i jest być może największą funkcją firmy "jesteśmy w przyszłości", eksperymentalnym następnym krokiem w zakresie zdolności generatywnej AI, wykraczającym poza proste wpisywanie, a nawet wypowiadanie podpowiedzi do chatbota, takiego jak ChatGPT, Claude lub Gemini.
Firmy zajmujące się sztuczną inteligencją stale ulepszają możliwości narzędzi AI, od tworzenia wideo po podstawową moc obliczeniową. Visual Intelligence Apple, który producent iPhone’ów wypuścił w wersji beta w zeszłym roku, jest porównywalny z Gemini Live.

Gemini Live ma potencjał zrewolucjonizowania sposobu, w jaki łączymy się z otoczeniem, poprzez połączenie naszego cyfrowego i fizycznego otoczenia, po prostu trzymając kamerę przed czymkolwiek.

Sprawdzanie Gemini Live: Scenariusze z życia wzięte

Za pierwszym razem, gdy go użyłem, Gemini dokładnie rozpoznał bardzo specyficzny kolekcjonerski przedmiot do gier, jakim był wypchany królik w polu widzenia mojej kamery. Za drugim razem pokazałem go znajomemu w galerii sztuki. Natychmiast rozpoznał żółwia na krzyżu (nie pytajcie) i zidentyfikował i przetłumaczył kanji tuż obok niego, powodując u nas obojgu dreszcze i wywołując lekki dreszcz. W pozytywny sposób, jak sądzę.

Zacząłem się zastanawiać, jak mógłbym przetestować funkcję w trudnych warunkach. Kiedy próbowałem nagrać go w akcji, stale zawodził. Co by było, gdybym zboczył z utartej ścieżki? Jestem wielkim fanem horrorów (filmów, seriali telewizyjnych i gier wideo) i posiadam mnóstwo przedmiotów kolekcjonerskich, bibelotów i innych przedmiotów. Jak dobrze poradzi sobie z bardziej niejasnymi przedmiotami, takimi jak moje przedmioty kolekcjonerskie o tematyce horroru?

Po pierwsze, muszę stwierdzić, że Gemini może być zarówno niewiarygodnie niesamowity, jak i niesamowicie irytujący w tej samej rundzie pytań. Miałem około 11 przedmiotów, które chciałem, aby Gemini zidentyfikował, a im dłużej trwała sesja na żywo, tym gorzej było, więc musiałem ograniczyć sesje do jednego lub dwóch obiektów. Moim zdaniem Gemini próbował wykorzystać informacje kontekstowe z wcześniej rozpoznanych przedmiotów, aby zgadywać nowe, co w pewnym stopniu ma sens, ale ostatecznie nie przyniosło korzyści ani mnie, ani jemu.

Czasami Gemini był całkiem dokładny, udzielając poprawnych odpowiedzi łatwo i bez zamieszania, chociaż zdarzało się to częściej w przypadku nowszych lub popularnych obiektów. Byłem zaskoczony, na przykład, kiedy natychmiast wywnioskował, że jeden z moich obiektów testowych pochodzi nie tylko z Destiny 2, ale także z limitowanej edycji z sezonowego wydarzenia z poprzedniego roku.

Gemini często był całkowicie pomylony, wymagając ode mnie udzielenia dalszych wskazówek, aby zbliżyć się do właściwej odpowiedzi. Czasami wydawało się, że Gemini wykorzystuje kontekst z moich poprzednich sesji na żywo, aby generować odpowiedzi, identyfikując wiele obiektów jako pochodzące z Silent Hill, kiedy nimi nie były. Mam gablotę poświęconą serii gier, więc rozumiem, dlaczego chciałby szybko zanurzyć się w tym obszarze.

Odkrywanie niedoskonałości: Błędy i dziwactwa w systemie

Gemini może czasami być całkowicie zabugowany. Czasami Gemini błędnie zidentyfikował jeden z obiektów jako fikcyjną postać z niewydanej gry Silent Hill: f, wyraźnie łącząc części różnych tytułów w coś, co nigdy nie istniało. Innym częstym błędem, z którym się spotkałem, było to, że kiedy Gemini udzielał błędnej odpowiedzi, a ja poprawiałem go i udzielałem mu bliższej wskazówki na temat odpowiedzi - lub po prostu udzielałem mu odpowiedzi - po czym powtarzał błędną odpowiedź, jakby to było nowe przypuszczenie. Kiedy to się zdarzało, zamykałem sesję i rozpoczynałem nową, co nie zawsze było pomocne.

Jedną z technik, które odkryłem, było to, że niektóre dyskusje były bardziej efektywne niż inne. Jeśli przejrzałem moją listę konwersacji Gemini, dotknąłem starego czatu, który poprawnie zidentyfikował konkretny przedmiot, a następnie ponownie zacząłem nadawać na żywo z tego czatu, byłby w stanie zidentyfikować przedmioty bez żadnych problemów. Chociaż nie zawsze jest to nieoczekiwane, intrygujące było zauważenie, że niektóre dialogi radziły sobie lepiej niż inne, nawet przy użyciu tego samego języka.

Google nie odpowiedział na moje pytania o dodatkowe informacje na temat działania Gemini Live.

Chciałem, żeby Gemini z powodzeniem odpowiadał na moje trudne, czasami bardzo szczegółowe pytania, więc oferowałem mnóstwo wskazówek, żeby mu w tym pomóc. Szturchnięcia okazały się przydatne, ale nie zawsze.

Transformacyjna technologia: Potencjalny wpływ Gemini Live

Gemini Live reprezentuje zmianę paradygmatu w sposobie, w jaki wchodzimy w interakcje z naszym otoczeniem, płynnie łącząc świat cyfrowy i fizyczny przez obiektyw naszych kamer. Chociaż technologia jest jeszcze w fazie początkowej, jej potencjalne zastosowania są ogromne i transformacyjne.

Wyobraź sobie, że używasz Gemini Live do:

  • Nawigowania w nieznanym otoczeniu: Wystarczy skierować kamerę na znaki drogowe lub punkty orientacyjne, a Gemini dostarczy w czasie rzeczywistym wskazówek i informacji.
  • Poznawania historycznych artefaktów: Podczas zwiedzania muzeum, użyj Gemini, aby zidentyfikować i podać kontekst dla dzieł sztuki i obiektów historycznych.
  • Gotowania skomplikowanych przepisów: Poproś Gemini, aby poprowadził Cię przez każdy etap przepisu, identyfikując składniki i sugerując alternatywne techniki.
  • Diagnozowania prostych problemów domowych: Skieruj kamerę na wadliwe urządzenie, a Gemini udzieli wskazówek dotyczących rozwiązywania problemów i potencjalnych rozwiązań.

To tylko kilka przykładów niezliczonych sposobów, w jakie Gemini Live może poprawić nasze codzienne życie. Wraz z dalszym rozwojem i doskonaleniem technologii, jej potencjał do zrewolucjonizowania sposobu, w jaki wchodzimy w interakcje z otaczającym nas światem, jest naprawdę nieograniczony.

Integracja Gemini Live z urządzeniami iOS dodatkowo rozszerza jego zasięg i dostępność, przynosząc moc widzenia opartego na AI szerszej publiczności. Wraz z postępem technologii AI w tempie wykładniczym, funkcje takie jak Gemini Live oferują wgląd w przyszłość, w której nasze urządzenia są nie tylko narzędziami do komunikacji i rozrywki, ale także inteligentnymi towarzyszami, którzy mogą pomóc nam nawigować, rozumieć i wchodzić w interakcje z otaczającym nas światem w nowy i znaczący sposób.