Gemini Live相机模式:AI未来,现已登陆iOS

Gemini Live的相机模式的到来标志着人工智能发展向前迈出了重要一步,将触手可及的未来带到了我们身边。虽然 Pixel 9 和 Samsung Galaxy S25 设备上的早期使用者已经享受了这项创新功能一段时间,但 Google 在其 I/O 大会上发布的最新公告扩大了访问范围,涵盖了 Android 和 iOS 用户。对于 iPhone 用户来说,这个发展尤其令人兴奋,他们现在可以体验到目前最引人注目的 AI 功能之一,特别是考虑到相机模式最初于 4 月份向其他 Android 用户推出。

揭开视觉的力量:Gemini 的相机模式如何工作

Gemini Live 的相机模式的核心在于,它赋予了 AI “看”的能力,使其能够识别放置在相机视野中的物体。这不仅仅是一个表面的噱头;它是一个强大的工具,允许用户以更直观和信息丰富的方式与周围环境互动。

除了简单的物体识别,Gemini 还可以回答关于已识别物体的问题,按需提供上下文和见解。此外,用户还可以与 Gemini 共享他们的屏幕,允许 AI 分析和识别显示在手机屏幕上的元素。要启动与相机模式的实时会话,用户只需启用实时相机视图,允许他们与聊天机器人就相机拍摄的任何内容进行对话。

初次印象:Gemini Live 的试驾

在 Pixel 9 Pro XL 上使用 Gemini Live 进行初步测试阶段,它的功能给我留下了深刻的印象。其中一个特别难忘的经历是让 Gemini 找到我放错地方的剪刀。

AI 以惊人的准确性回应:“我刚刚在桌子上发现了你的剪刀,就在绿色开心果包装旁边。你看到了吗?”

令我惊讶的是,Gemini 说对了。剪刀的确就在它指示的地方,尽管我只是在 15 分钟的实时会话中,在它面前短暂地移动了相机,本质上是在带 AI 聊天机器人参观我的公寓。

受此初步成功的吸引,我急切地进一步探索了相机模式。在另一次更长时间的测试中,我激活了该功能并开始在我的公寓里走动,提示 Gemini 识别它看到的物体。它准确地识别了各种物品,包括水果、润唇膏和其他日常物品。然而,重新发现我的剪刀仍然是最引人注目的功能演示。

Gemini 在没有任何事先提示的情况下识别出剪刀这一事实尤其令人印象深刻。AI 在会话过程中的某个时刻默默地识别了它们,并以惊人的精度准确地回忆了它们的位置。 这种体验真切地感觉像是对未来的惊鸿一瞥,促使我对它的潜力进行了进一步的调查。

汲取灵感:Google 对实时视频 AI 的愿景

我对 Gemini Live 相机功能的实验与 Google 去年夏天展示的演示相呼应,该演示首次展示了这些实时视频 AI 功能。该演示以 Gemini 提醒用户他们将眼镜落在哪里为特色,这似乎好得令人难以置信。然而,正如我所发现的,这种程度的准确性确实是可以实现的。

Gemini Live 能够识别的不仅仅是家用物品。 Google 声称它可以帮助用户在拥挤的火车站导航,或者识别糕点中的馅料。它还可以提供对艺术品的更深入的见解,例如其起源以及它是否是限量版作品。

此功能超越了普通的 Google Lens。 您可以与 AI 进行对话,这比 Google Assistant 更具对话性。

Google 还发布了一个 YouTube 视频来展示该功能,并且它现在在 Google Store 上拥有自己的页面。

首先启动 Gemini,打开相机,然后开始说话。

Gemini Live 以 Google 的 Project Astra 为基础,该项目最初于去年推出,可能是该公司最大的“我们身处未来”功能,是生成式 AI 功能的实验性下一步,超越了简单地在 ChatGPT、Claude 或 Gemini 等聊天机器人中键入甚至说出提示。

AI 公司正在不断改进 AI 工具的功能,从视频创建到基本处理能力。 Apple 去年发布的测试版 Visual Intelligence,与 Gemini Live 具有可比性。

Gemini Live 有潜力通过在我们简单地将相机放在任何东西前面时,融合我们的数字和物理环境来彻底改变我们与环境的连接方式。

测试 Gemini Live:真实场景

第一次使用它时,Gemini 准确地识别了我的相机视图中非常特定的游戏收藏品,即毛绒玩具兔子。第二次,我给一位在美术馆的朋友看了它。它立即认出了十字架上的乌龟(别问我),并识别并翻译了旁边的汉字,让我们俩都感到毛骨悚然,并感到有点害怕。我相信这是以一种积极的方式。

我开始考虑如何对该功能进行压力测试。当我试图在行动中对其进行屏幕录制时,它一直失败。 如果我偏离了通常的道路怎么办? 我是恐怖类型的忠实粉丝(电影、电视剧和电子游戏),并且拥有大量的收藏品、小饰品和其他物品。 它在处理更晦涩的物品(比如我的恐怖主题收藏品)时表现如何?

首先,我必须声明 Gemini 在同一轮问题中既令人难以置信地惊人,又令人难以置信地烦人。 我大约有 11 个想要 Gemini 识别的物体,并且实时会话持续的时间越长,情况就越糟糕,因此我不得不将会话限制为一两个物体。 我个人的看法是,Gemini 试图使用先前识别的项目的上下文信息来猜测新项目,这在某种程度上是有道理的,但最终对我或它都没有好处。

有时,Gemini 非常准确,可以轻松且毫无混淆地提供正确的答案,尽管这种情况在更新或更受欢迎的物体中更频繁地发生。 例如,令我惊讶的是,它立即推断出我的一个测试对象不仅来自 Destiny 2,而且还是前一年某个季节性活动的限量版。

Gemini 经常完全偏离目标,需要我提供进一步的提示才能接近正确的答案。 有时,它似乎好像 Gemini 正在利用我先前的实时会话中的上下文来生成响应,将多个对象识别为来自 Silent Hill,而它们实际上并非如此。 我有一个专门用于该游戏系列的展示柜,所以我可以理解为什么它会想迅速进入该领域。

揭示缺陷:系统中的错误和怪癖

Gemini 有时会完全出错。 有时,Gemini 会将其中一个对象错误地识别为来自未发布的 Silent Hill: f 游戏中的虚构角色,显然是将不同游戏的各个部分组合成一个从未存在过的东西。 当 Gemini 给出了错误的答案,而我纠正了它并给出了更贴近答案的提示,或者只是直接给出了答案之后,它又重复了错误的答案,仿佛它是一个新的猜测时,是我遇到的另一个一致错误。 发生这种情况时,我关闭会话并开始一个新的会话,但这并不总是有帮助。

我发现的一种技巧是,某些讨论比其他讨论更有效。 如果我浏览我的 Gemini 对话列表,点击一个正确获取特定项目的旧聊天,然后从该聊天再次上线,它就能够毫不费力地识别这些项目。 虽然这并不总是出乎意料,但有趣的是,即使使用相同的语言,某些对话的表现也优于其他对话。

Google 没有回应我提出的关于 Gemini Live 如何工作的更多信息的请求。

我希望 Gemini 成功地回答我具有挑战性的,有时甚至是高度具体的问题,所以我提供了大量的提示来帮助它做到这一点。 事实证明,这些推动很有用,但并非总是如此。

一种变革性技术:Gemini Live 的潜在影响

Gemini Live 代表了我们与周围环境互动方式的范式转变,通过我们相机的镜头无缝地融合了数字和物理领域。 虽然这项技术仍处于早期阶段,但其潜在应用是广泛且具有变革性的。

想象一下使用 Gemini Live 来:

  • 导航不熟悉的环境: 只需将相机对准街道标志或地标,Gemini 就会提供实时方向和信息。
  • 了解历史文物: 参观博物馆时,使用 Gemini 识别艺术品和历史文物并提供背景信息。
  • 烹饪复杂的食谱: 让 Gemini 指导您完成食谱的每个步骤,识别成分并提出替代技术。
  • 诊断简单的家庭问题: 将相机对准发生故障的设备,Gemini 会提供故障排除提示和潜在解决方案。

这些只是 Gemini Live 可以改善我们日常生活的无数方式中的几个例子。 随着该技术的不断发展和改进,它在彻底改变我们与周围世界互动方式方面的潜力是真正无限的。

Gemini Live 集成到 iOS 设备中进一步扩大了其覆盖范围和可访问性,将 AI 驱动的视觉力量带给更广泛的受众。 随着 AI 技术继续以指数级的速度发展,像 Gemini Live 这样的功能让我们得以一窥未来,在未来的这种未来中,我们的设备不仅是通信和娱乐工具,而且是智能伴侣,可以帮助我们以新的和有意义的方式导航、理解和与周围世界互动。