谷歌Gemini解锁新功能：视频和屏幕查询 | zh-CN

实时屏幕交互：’屏幕共享’

在巴塞罗那举行的 2025 年世界移动通信大会 (MWC) 上展示的’屏幕共享’功能代表了 Gemini 上下文理解能力的飞跃。此功能允许用户直接与 AI 助手共享其手机屏幕的内容，从而实现全新水平的交互式提问。

想象一下，您正在浏览一家在线商店，寻找一条完美的宽松牛仔裤。借助’屏幕共享’，您可以简单地与 Gemini 共享您的屏幕，并询问互补的服装。Gemini 凭借其对视觉环境的增强理解，可以提供相关的建议，使您的购物体验更加直观和高效。

此功能超越了简单的图像识别。它关乎理解用户当前的上下文并提供与其当前活动直接相关的信息。无论您是比较产品规格、寻求复杂图表的说明，还是浏览不熟悉的应用程序，’屏幕共享’都提供了一个强大的工具，可用于即时、上下文感知的帮助。

视频搜索：揭示动态中的洞察力

去年在 Google I/O 上首次亮相的视频搜索功能将 Gemini 的功能扩展到了静态图像之外。此功能使用户能够录制视频，并在拍摄过程中向 Gemini 提出有关内容的问题。

这开启了一个充满可能性的世界。想象一下，您在博物馆里，被一件艺术品迷住了。您可以拍摄这件艺术品，并向 Gemini 询问其历史意义、艺术家的技巧，甚至是作品中的象征意义。Gemini 实时分析视频，可以提供即时见解，丰富您的理解和欣赏。

考虑一下教育应用的潜力。学生可以拍摄科学实验并向 Gemini 询问潜在的原理。机械师可以记录复杂的发动机维修过程，并从 Gemini 获得实时指导。可能性是巨大的，并且跨越众多领域。

扩展 AI 交互的边界

这些新功能不仅仅是提出问题；它们还旨在创建用户和信息之间更流畅、更自然的交互。传统的搜索方法通常要求用户制定精确的基于文本的查询。通过视频和基于屏幕的提问，Gemini 允许采用更直观的方法，反映了我们在现实世界中自然探索和学习的方式。

向视觉和上下文理解的转变代表了 AI 发展的重大趋势。随着 AI 模型变得越来越复杂，它们越来越能够解释和响应非文本信息，从而为人机交互开辟了新的途径。

深入了解’屏幕共享’功能

‘屏幕共享’功能不仅仅是一个简单的屏幕共享工具。它是一个复杂的系统，结合了多种 AI 功能，以提供无缝和直观的用户体验。

实时视觉分析： Gemini 不仅仅是’看到’屏幕；它实时分析内容。这意味着它可以识别对象、文本，甚至是所显示内容的整体上下文。这种持续分析使 Gemini 能够快速准确地回答问题。
上下文理解： Gemini 不仅仅是识别屏幕上的元素。它了解用户活动的上下文。例如，如果您正在浏览购物网站，Gemini 会理解您可能正在寻找产品信息或推荐。这种上下文感知能力使 Gemini 能够提供更相关和有用的答案。
自然语言处理： 虽然输入是可视的，但交互仍然保持自然和直观。用户可以用简单的语言提问，就像他们与人类助手一样。Gemini 的自然语言处理能力使其能够理解问题背后的意图并提供相关的响应。
自适应学习： Gemini 从每次交互中学习。随着用户提出更多问题并提供反馈，Gemini 对他们的偏好和需求的理解会得到改善。这种自适应学习使 Gemini 能够随着时间的推移提供越来越个性化和有用的帮助。

探索视频搜索的潜力

视频搜索功能代表了 AI 驱动的信息检索的重大进步。它不仅仅是查找视频；它还涉及从视频内部提取知识和见解。

动态内容分析： 与静态图像不同，视频包含丰富的动态信息。Gemini 可以分析运动、识别随时间的变化，并理解视频中不同元素之间的关系。这使得对内容的理解更加丰富和细致。
实时问答： 在拍摄时提问的能力是一个游戏规则改变者。这消除了事后记住具体细节或制定复杂查询的需要。用户只需将相机对准感兴趣的内容，并向 Gemini 询问即时信息。
多模态学习： 视频搜索将视觉信息与音频线索（如果存在）和上下文理解相结合。这种多模式方法使 Gemini 能够利用多种信息来源来提供全面的答案。
增强的可访问性： 视频搜索对于视障人士特别有益。通过允许用户询问周围环境，Gemini 可以帮助他们更轻松地导航世界并访问原本可能无法访问的信息。

AI 驱动的辅助的未来

在 Gemini 中引入视频和基于屏幕的查询是 AI 驱动的辅助的未来的一个缩影。随着 AI 模型不断发展，我们可以期待人与技术之间更加无缝和直观的交互。

个性化学习： AI 助手将越来越擅长理解个人的学习风格和偏好。他们将能够定制教育内容并提供个性化指导，以帮助用户实现他们的学习目标。
增强现实集成： 视频搜索和基于屏幕的查询非常适合增强现实 (AR) 应用。想象一下，戴上 AR 眼镜，它可以识别您视野中的物体并提供有关它们的实时信息。
主动协助： AI 助手将在预测用户需求方面变得更加主动。他们将能够在被明确要求之前识别潜在的问题或机会并提供帮助。
增强协作： AI 助手将促进人与人之间更有效的协作。他们将能够实时翻译语言、总结会议要点，甚至提供对团队动态的见解。

可用性和推出

这些突破性的功能计划于本月晚些时候在 Android 上的 Google One AI Premium 计划中向 Gemini Advanced 用户发布。这种分阶段推出允许 Google 收集用户反馈并在更广泛发布之前进一步完善这些功能。Google One AI Premium 计划提供了一系列好处，包括访问最先进的 AI 模型和功能，使其成为寻求探索 AI 技术前沿的用户的理想选择。

最初在 Android 上可用反映了该平台的广泛采用，并为测试和改进提供了庞大的用户群。随着 Google 继续在其生态系统中开发和增强 Gemini 的功能，未来可能会扩展到其他平台。

更深入地关注实际应用

这些新的 Gemini 功能的真正力量在于它们在各种场景中的实际应用。让我们考虑一些具体的例子：

1. 旅行和探索：

地标识别： 在访问一个新城市时，用户可以拍摄一座历史建筑并向 Gemini 询问其名称、历史和建筑意义。
菜单翻译： 在一家外国餐厅，用户可以与 Gemini 共享显示菜单的屏幕，并获得即时翻译，以及根据其饮食偏好提出的建议。
公共交通导航： 在浏览不熟悉的地铁系统时，用户可以拍摄地图并向 Gemini 询问到达目的地的最佳路线。

2. 教育和学习：

交互式教科书： 学生可以与 Gemini 共享显示教科书页面的屏幕，并询问有关复杂概念或定义的问题。
科学实验辅助： 在进行科学实验时，学生可以拍摄过程并向 Gemini 询问预期结果或潜在的安全隐患。
语言学习： 语言学习者可以拍摄外语对话或视频片段，并向 Gemini 寻求翻译、语法解释或发音指导。

3. 购物和商务：

产品比较： 在网上购物时，用户可以与 Gemini 共享显示多个产品页面的屏幕，并要求比较功能、价格和客户评论。
风格建议： 如最初的示例所示，用户可以通过共享显示服装项目的屏幕并向 Gemini 询问互补单品或服装建议来寻求时尚建议。
食谱辅助： 在遵循在线食谱时，用户可以与 Gemini 共享他们的屏幕，并询问配料替代品或烹饪技术的说明。

4. 技术支持和故障排除：

软件问题诊断： 在遇到软件问题时，用户可以与 Gemini 共享他们的屏幕，并获得分步故障排除指导。
硬件维修辅助： 在尝试修理设备时，用户可以拍摄过程并向 Gemini 询问组件的识别或特定维修步骤的说明。
网络连接故障排除： 在遇到网络连接问题时，用户可以与 Gemini 共享显示网络设置的屏幕，并获得诊断和解决问题的帮助。

这些只是一些例子，潜在的应用几乎是无限的。随着用户越来越熟悉这些功能，他们无疑会发现新的和创新的方法来在日常生活中利用 Gemini 的功能。关键是从基于文本的查询转变为更自然和直观的交互形式，允许用户以与其现实世界活动无缝集成的方式访问信息和帮助。

更新于 2025-03-04

# Google # Gemini # Assistant