Gemini Live: взгляд в будущее ИИ на iOS

Открытие силы зрения: как работает режим камеры Gemini

Режим камеры Gemini Live знаменует собой важный шаг вперед в эволюции искусственного интеллекта, предоставляя ощутимую часть будущего прямо у нас под рукой. Хотя первые пользователи устройств Pixel 9 и Samsung Galaxy S25 уже некоторое время пользуются этой инновационной функцией, недавнее объявление Google на конференции I/O расширяет доступ к гораздо более широкой аудитории, охватывающей как пользователей Android, так и iOS. Это особенно интересно для владельцев iPhone, которые теперь могут испытать одну из самых убедительных функций искусственного интеллекта, доступных в настоящее время, особенно учитывая, что режим камеры был первоначально запущен для других пользователей Android еще в апреле.

По своей сути режим камеры Gemini Live предоставляет ИИ возможность "видеть", позволяя ему распознавать и идентифицировать объекты, размещенные в поле зрения камеры. Это не просто поверхностная уловка; это мощный инструмент, который позволяет пользователям взаимодействовать с окружающим миром более интуитивно и информативно.

Помимо простого распознавания объектов, Gemini может также отвечать на вопросы об идентифицированных элементах, предоставляя контекст и аналитические данные по запросу. Кроме того, пользователи могут делиться своим экраном с Gemini, позволяя ИИ анализировать и идентифицировать элементы, отображаемые на экране их телефона. Чтобы начать живой сеанс с использованием режима камеры, пользователи просто включают просмотр в режиме реального времени, что позволяет им вступать в разговор с чат-ботом обо всем, снятом камерой.

Первые впечатления: тест-драйв с Gemini Live

Во время моей начальной фазы тестирования Gemini Live на Pixel 9 Pro XL я был глубоко впечатлен его возможностями. Один особенно запоминающийся опыт заключался в том, что я попросил Gemini найти мои потерянные ножницы.

ИИ ответил с замечательной точностью: "Я только что заметил ваши ножницы на столе, прямо рядом с зеленой упаковкой фисташек. Вы их видите?"

К моему удивлению, Gemini был совершенно прав. Ножницы были именно там, где он указал, несмотря на то, что я лишь мельком провел камерой перед ними во время 15-минутной прямой трансляции, где я, по сути, проводил для чат-бота с искусственным интеллектом экскурсию по своей квартире.

Заинтригованный этим первоначальным успехом, я с нетерпением продолжил изучение режима камеры. В другом, более расширенном тесте я активировал функцию и начал ходить по своей квартире, предлагая Gemini идентифицировать объекты, которые он видел. Он точно распознал различные предметы, в том числе фрукты, ChapStick и другие повседневные предметы. Однако повторное открытие моих ножниц осталось самым ярким примером его возможностей.

Тот факт, что Gemini идентифицировал ножницы без какой-либо предварительной подсказки, был особенно впечатляющим. ИИ молча распознал их в какой-то момент во время сеанса и точно вспомнил их местоположение с поразительной точностью. Этот опыт действительно ощущался как взгляд в будущее, побуждая меня провести дальнейшие исследования его потенциала.

Черпая вдохновение: концепция Google для видеоискусственного интеллекта в реальном времени

Мои эксперименты с функцией камеры Gemini Live отражают демонстрацию, представленную Google прошлым летом, которая предложила первый взгляд на эти возможности видеоискусственного интеллекта в реальном времени. В демонстрации Gemini напоминает пользователю, где он оставил свои очки, что кажется слишком хорошим, чтобы быть правдой. Однако, как я обнаружил, этот уровень точности действительно достижим.

Gemini Live способен распознавать гораздо больше, чем просто предметы домашнего обихода. Google утверждает, что он может помочь пользователям ориентироваться на людных вокзалах или определять начинки в выпечке. Он также может предоставить более глубокое понимание произведений искусства, например, их происхождение и то, является ли это экземпляром из лимитированной серии.

Эта функциональность выходит за рамки обычного Google Lens. Вы можете вести разговор с ИИ, который гораздо более разговорчив, чем Google Assistant.

Google также выпустила видео на YouTube, демонстрирующее эту функцию, и теперь у нее есть собственная страница в Google Store.

Для начала запустите Gemini, включите камеру и начните говорить.

Gemini Live основан на проекте Google Astra, который был впервые представлен в прошлом году и, возможно, является самой большой функцией компании "мы в будущем", экспериментальным следующим шагом для возможностей генеративного ИИ, выходящим за рамки простого ввода или даже произнесения подсказок в чат-бот, такой как ChatGPT, Claude или Gemini.

Компании, занимающиеся искусственным интеллектом, постоянно улучшают возможности инструментов искусственного интеллекта, от создания видео до базовой вычислительной мощности. Visual Intelligence от Apple, которую производитель iPhone выпустил в бета-версии в прошлом году, сопоставима с Gemini Live.

Gemini Live может революционизировать то, как мы соединяемся с окружающей средой, объединяя наше цифровое и физическое окружение, поскольку мы просто держим камеру перед чем угодно.

Тестирование Gemini Live: реальные сценарии

В первый раз, когда я использовал его, Gemini точно распознал очень специфический игровой коллекционный предмет - чучело кролика - в поле зрения моей камеры. Во второй раз я показал его другу в художественной галерее. Он сразу же узнал черепаху на кресте (не спрашивайте меня) и идентифицировал и перевел кандзи прямо рядом с ней, вызвав у нас обоих озноб и оставив нас слегка напуганными. В положительном смысле, я считаю.

Я начал думать о том, как я мог бы подвергнуть эту функцию стресс-тесту. Когда я попытался записать его работу на экран, он постоянно давал сбой. Что, если я сойду с обычного пути? Я большой поклонник жанра ужасов (фильмы, телесериалы и видеоигры) и обладаю множеством коллекционных предметов, безделушек и других вещей. Насколько хорошо он будет работать с более малоизвестными предметами, такими как мои коллекционные предметы в стиле ужасов?

Во-первых, я должен заявить, что Gemini может быть одновременно невероятно потрясающим и невероятно раздражающим в одном и том же раунде вопросов. У меня было около 11 объектов, которые я хотел, чтобы Gemini идентифицировал, и чем дольше длился живой сеанс, тем хуже становилось, поэтому мне пришлось ограничить сеансы одним или двумя объектами. На мой взгляд, Gemini пытался использовать контекстную информацию из ранее распознанных элементов, чтобы угадать новые, что в какой-то степени имеет смысл, но в конечном итоге не принесло пользы ни мне, ни ему.

Иногда Gemini был довольно точным, давая правильные ответы легко и без путаницы, хотя это происходило чаще с более новыми или популярными объектами. Меня удивило, например, когда он сразу же сделал вывод, что один из моих тестовых объектов был не только из Destiny 2, но и из лимитированной серии с сезонного мероприятия прошлого года.

Gemini часто был совершенно неточным, требуя от меня предоставить дополнительные подсказки, чтобы приблизиться к правильному ответу. Иногда казалось, что Gemini использует контекст из моих предыдущих живых сеансов для генерации ответов, идентифицируя несколько объектов как происходящие из Silent Hill, хотя это не так. У меня есть витрина, посвященная серии игр, поэтому я могу понять, почему он захочет быстро окунуться в эту область.

Разоблачение несовершенств: ошибки и причуды в системе

Gemini иногда может быть совершенно глючным. Иногда Gemini ошибочно идентифицировал один из объектов как вымышленного персонажа из невышедшей игры Silent Hill: f, явно объединяя части разных названий в нечто, чего никогда не существовало. Другой постоянной ошибкой, с которой я сталкивался, было то, когда Gemini давал неправильный ответ, а я исправлял его и давал ему более близкую подсказку к ответу — или просто давал ему ответ — только для того, чтобы он повторял неправильный ответ, как если бы это была новая догадка. Когда это происходило, я закрывал сеанс и начинал новый, что не всегда помогало.

Одним из методов, который я обнаружил, было то, что некоторые обсуждения были более эффективными, чем другие. Если я просматривал свой список разговоров в Gemini, нажимал старый чат, в котором был правильно указан конкретный объект, а затем снова выходил в эфир из этого чата, он мог идентифицировать объекты без каких-либо проблем. Хотя это не всегда неожиданно, было интересно отметить, что некоторые диалоги работают лучше, чем другие, даже при использовании одного и того же языка.

Google не ответила на мои запросы о предоставлении дополнительной информации о том, как работает Gemini Live.

Я хотел, чтобы Gemini успешно ответил на мои сложные, иногда очень специфические вопросы, поэтому я предлагал множество подсказок, чтобы помочь ему в этом. Подталкивания оказались полезными, но не всегда.

Преобразующая технология: потенциальное влияние Gemini Live

Gemini Live представляет собой сдвиг парадигмы в том, как мы взаимодействуем с нашим окружением, органично объединяя цифровой и физический миры через объектив наших камер. Хотя технология все еще находится на ранних стадиях развития, ее потенциальные применения огромны и преобразуют мир.

Представьте себе использование Gemini Live для:

  • Навигация по незнакомой местности: Просто наведите камеру на дорожные знаки или ориентиры, и Gemini предоставит в режиме реального времени направления и информацию.
  • Узнайте об исторических артефактах: Посещая музей, используйте Gemini для идентификации и предоставления контекста для произведений искусства и исторических объектов.
  • Готовьте сложные рецепты: Попросите Gemini провести вас через каждый шаг рецепта, указав ингредиенты и предложив альтернативные методы.
  • Диагностируйте простые бытовые проблемы: Направьте камеру на неисправный прибор, и Gemini предоставит советы по устранению неполадок и возможные решения.

Это лишь несколько примеров из бесчисленного множества способов, которыми Gemini Live может улучшить нашу повседневную жизнь. По мере того как технология продолжает развиваться и совершенствоваться, ее потенциал революционизировать наше взаимодействие с окружающим миром поистине безграничен.

Интеграция Gemini Live в устройства iOS еще больше расширяет его охват и доступность, предоставляя возможности зрения на основе искусственного интеллекта более широкой аудитории. Поскольку технология искусственного интеллекта продолжает развиваться с экспоненциальной скоростью, такие функции, как Gemini Live, дают представление о будущем, в котором наши устройства будут не только инструментами для общения и развлечений, но и интеллектуальными компаньонами, которые помогут нам ориентироваться, понимать и взаимодействовать с окружающим миром новыми и значимыми способами.