Разкриване на силата на зрението: Как работи Camera режимът на Gemini
В своята същност, Camera режимът на Gemini Live дава на AI способността да "вижда", позволявайки му да разпознава и идентифицира обекти, поставени в зрителното поле на камерата. Това не е просто повърхностен трик; това е мощен инструмент, който позволява на потребителите да взаимодействат със заобикалящата ги среда по по-интуитивен и информативен начин.
Отвъд простото разпознаване на обекти, Gemini може също да отговаря на въпроси за идентифицираните елементи, предоставяйки контекст и прозрения при поискване. Освен това, потребителите могат да споделят екрана си с Gemini, позволявайки на AI да анализира и идентифицира елементи, показани на екрана на техния телефон. За да започнете сесия на живо с Camera режима, потребителите просто активират изгледа на камерата на живо, което им позволява да участват в разговор с чатбота за всичко, което камерата заснема.
Първи впечатления: Тест драйв с Gemini Live
По време на първоначалната ми фаза на тестване с Gemini Live на Pixel 9 Pro XL, бях напълно впечатлен от възможностите му. Едно особено запомнящо се изживяване включваше искане от Gemini да намери изгубената ми ножица.
AI отговори с забележителна точност: "Току-що забелязах ножиците ви на масата, точно до зелената опаковка с шамфъстък. Виждате ли ги?"
За моя изненада, Gemini беше напълно прав. Ножиците бяха точно там, където той посочи, въпреки факта, че бях преминал само за кратко с камерата пред тях по време на 15-минутна сесия на живо, където по същество давах на AI чатбота обиколка на апартамента си.
Заинтригуван от този първоначален успех, аз нетърпеливо проучих Camera режима допълнително. В друг, по-продължителен тест, активирах функцията и започнах да се разхождам из апартамента си, подканвайки Gemini да идентифицира обектите, които вижда. Той точно разпозна различни предмети, включително плодове, ChapStick и други предмети от ежедневието. Преоткриването на ножиците ми обаче остана най-поразителната демонстрация на неговите възможности.
Фактът, че Gemini идентифицира ножиците без никакви предварителни подкани, беше особено впечатляващ. AI ги беше разпознал мълчаливо в даден момент по време на сесията и точно си спомни местоположението им със забележителна прецизност. Това преживяване наистина се почувства като поглед в бъдещето, което ме подтикна да проведа допълнителни проучвания за неговия потенциал.
Черпене на вдъхновение: Визията на Google за Live Video AI
Моят експеримент с функцията на камерата на Gemini Live отразяваше демонстрацията, представена от Google предишното лято, която предложи пръв поглед върху тези възможности на AI за видео на живо. Демонстрацията включваше Gemini, напомнящ на потребителя къде е оставил очилата си, което изглеждаше като твърде добър факт, за да е истина. Въпреки това, както открих, това ниво на точност наистина беше постижимо.
Gemini Live е в състояние да разпознае много повече от просто домакински предмети. Google твърди, че може да помогне на потребителите да се ориентират в претъпкани гари или да идентифицират плънките в сладкишите. Той може също така да предостави по-задълбочени прозрения за произведения на изкуството, като например произхода му и дали е ограничено издание.
Тази функционалност надхвърля тази на обикновения Google Lens. Можете да разговаряте с AI, което е много по-разговорливо от Google Assistant.
Google също така пусна видеоклип в YouTube, демонстриращ функцията, и сега тя има своя собствена страница в Google Store.
За да започнете, стартирайте Gemini, включете камерата и започнете да говорите.
Gemini Live надгражда Project Astra на Google, който беше представен за първи път миналата година и може би е най-голямата функция на компанията "ние сме в бъдещето", експериментална следваща стъпка за генеративните AI възможности, отвъд простото писане или дори говорене на подкани в чатбот като ChatGPT, Claude или Gemini.
AI компаниите непрекъснато подобряват възможностите на AI инструментите, от създаването на видеоклипове до основната процесорна мощност. Visual Intelligence на Apple, който производителят на iPhone пусна в бета версия миналата година, е сравним с Gemini Live.
Gemini Live има потенциала да революционизира начина, по който се свързваме със заобикалящата ни среда, като слива нашата дигитална и физическа среда, докато просто държим камерата пред каквото и да е.
Тестване на Gemini Live: Сценарии от реалния свят
Първият път, когато го използвах, Gemini точно разпозна много специфичен колекционерски артикул за игри на пълнен заек в зрителното поле на камерата ми. Вторият път го показах на приятел в художествена галерия. Той веднага разпозна костенурката на кръст (не ме питайте) и идентифицира и преведе канджи веднага до нея, давайки и на двама ни тръпки и оставяйки ни леко настръхнали. По положителен начин, вярвам.
Започнах да обмислям как бих могъл да тествам функцията под стрес. Когато се опитах да записвам екрана, докато действа, той последователно се проваляше. Какво ще стане, ако се отклоня от обичайния път? Аз съм голям фен на хорър жанра (филми, телевизионни сериали и видеоигри) и притежавам множество колекционерски предмети, дрънкулки и други предмети. Колко добре би се представил с по-неясни предмети, като моите колекционерски предмети на тема ужаси?
Първо, трябва да заявя, че Gemini може да бъде едновременно невероятно удивителен и невероятно дразнещ в един и същи кръг от въпроси. Имах около 11 обекта, които исках Gemini да идентифицира, и колкото по-дълга продължаваше сесията на живо, толкова по-зле ставаше, така че трябваше да огранича сесиите до един или два обекта. По-мое мнение, Gemini се опита да използва контекстуална информация от предишно разпознати елементи, за да познае новите, което има смисъл до известна степен, но в крайна сметка не беше от полза нито за мен, нито за него.
Понякога Gemini беше доста точен, предоставяйки правилните отговори лесно и без объркване, въпреки че това се случваше по-често с по-нови или популярни обекти. Бях изненадан, например, когато веднага разбра, че един от моите тестови обекти е не само от Destiny 2, но и ограничено издание от сезонно събитие от предходната година.
Gemini често щеше да бъде напълно не на мястото си, което да ме наложи да предоставя допълнителни намеци, за да се доближа до правилния отговор. Понякога изглеждаше, че Gemini използва контекст от предишните ми сесии на живо, за да генерира отговори, идентифицирайки множество обекти като идващи от Silent Hill, когато не са. Имам витрина, посветена на поредицата игри, така че мога да разбера защо би искал да се потопи в тази област бързо.
Разкриване на несъвършенства: Бъгове и странности в системата
Gemini може да бъде напълно бъгнат понякога. Понякога Gemini неправилно идентифицира един от обектите като измислен герой от непубликуваната игра Silent Hill: f, ясно комбинирайки части от различни заглавия в нещо, което никога не е съществувало. Когато Gemini даде грешен отговор, а аз го поправих и му дадох по-близък намек за отговора - или просто му дадох отговора - само за да го накарам да повтори грешния отговор, сякаш е ново предположение, беше другият постоянен бъг, с който се сблъсквах. Когато това се случи, ще затворя сесията и ще започна нова, което не винаги беше полезно.
Една техника, която открих, беше, че някои дискусии са по-ефективни от други. Ако прегледах списъка си с разговори в Gemini, докоснах стар чат, който беше получил конкретен елемент правилно, и след това отново минах на живо от този чат, той щеше да може да идентифицира обектите без никакви проблеми. Въпреки че това не винаги е неочаквано, беше интригуващо да забележим, че някои диалози се представят по-добре от други, дори когато се използва същият език.
Google не отговори на моите запитвания за допълнителна информация за това как работи Gemini Live.
Исках Gemini успешно да отговори на моите предизвикателни, понякога много специфични въпроси, затова предложих много намеци, за да му помогна да го направи. Тласъците се оказаха полезни, но не винаги.
Трансформираща технология: Потенциалното въздействие на Gemini Live
Gemini Live представлява промяна в парадигмата в начина, по който взаимодействаме със заобикалящата ни среда, като безпроблемно обединява дигиталната и физическата сфера през обектива на нашите камери. Въпреки че технологията е все още в ранен етап, нейните потенциални приложения са огромни и трансформиращи.
Представете си, че използвате Gemini Live, за да:
- Навигиране в непозната среда: Просто насочете камерата си към улични знаци или забележителности и Gemini ще предостави насоки и информация в реално време.
- Научете за исторически артефакти: Когато посетите музей, използвайте Gemini, за да идентифицирате и предоставите контекст за произведения на изкуството и исторически обекти.
- Гответе сложни рецепти: Помолете Gemini да ви води през всяка стъпка от рецептата, идентифицирайки съставките и предлагайки алтернативни техники.
- Диагностицирайте прости домакински проблеми: Насочете камерата си към неизправен уред и Gemini ще предостави съвети за отстраняване на неизправности и потенциални решения.
Това са само няколко примера за безбройните начини, по които Gemini Live може да подобри нашето ежедневие. Тъй като технологията продължава да се развива и подобрява, нейният потенциал да революционизира начина, по който взаимодействаме със света около нас, е наистина неограничен.
Интегрирането на Gemini Live в iOS устройствата допълнително разширява обхвата и достъпността му, като предоставя силата на зрението, задвижвано от AI, на по-широка аудитория. Тъй като AI технологията продължава да напредва с експоненциална скорост, функции като Gemini Live предлагат поглед към бъдеще, където нашите устройства са не само инструменти за комуникация и развлечение, но и интелигентни спътници, които могат да ни помогнат да се ориентираме, да разбираме и да взаимодействаме със света около нас по нови и значими начини.