Google 近期为 Android 操作系统和 Chrome 浏览器推出了一系列创新的、由 AI 驱动且关注辅助功能的新特性。其中一项特别值得关注的增强功能是将 Gemini 的智能集成到 TalkBack 中,这是 Android 内置的屏幕阅读器。此更新赋能用户利用 AI 来理解图像内容,并更有效地导航他们的屏幕。
TalkBack 的 AI 图像理解能力
去年,Google 通过将 Gemini 的能力整合到 TalkBack 中迈出了重要一步,为有视觉障碍的人提供了对图像进行 AI 生成描述的访问权限,即使在没有 Alt 文本的情况下也是如此。在此基础上,用户现在可以通过提出问题并接收关于图像内容富有洞察力的回复,从而更深入地与图像互动。
设想一下,一个朋友给你发了一张他们新吉他的照片。有了增强的 TalkBack,你不仅可以收到对乐器的描述,还可以询问它的品牌和颜色,从而全面了解图像。
此外,此功能扩展到整个电话屏幕。想象一下,你正在浏览一个在线购物应用。你现在可以向 Gemini 询问特定商品的材质,或者是否有任何折扣可用,从而简化你的购物体验,并在你的指尖提供有价值的信息。
表达型字幕:捕捉细微差别和情感
Google 还宣布了对表达型字幕(Expressive Captions)的更新,这是 Android 的实时字幕功能。通过利用 AI 的强大功能,表达型字幕不仅可以转录所说的内容,还可以捕捉通过语音传达的细微差别和情感。
认识到人们经常通过延长单词的发音来表达自己,Google 在表达型字幕中引入了一种新颖的持续时间(duration)功能。此功能允许用户辨别口语背后的强调和情感。例如,你将能够区分体育解说员惊呼 “amaaazing shot” 和某人简单地说 “nooooo” 来表达强烈的失望。
除了持续时间之外,此更新还引入了声音的新标签,例如口哨声或清嗓子声,从而提供更完整和信息丰富的字幕体验。
更新后的表达型字幕功能目前在美国、英国、加拿大和澳大利亚的英语版本中可用,适用于运行 Android 15 及更高版本的设备。
增强 Chrome 上 PDF 的辅助功能
Google 还致力于提高 Chrome 浏览器中 PDF 的辅助功能。以前,用户无法在其桌面 Chrome 浏览器上使用屏幕阅读器与扫描的 PDF 进行交互。但是,通过此更新,Chrome 现在可以自动识别这些类型的 PDF,从而使用户能够像在任何其他网页上一样高亮显示、复制和搜索文本。此功能由光学字符识别(Optical Character Recognition,OCR)技术的集成提供支持。
此增强功能显著提高了扫描文档的辅助功能,使其对于有视觉障碍的人来说更易于使用。
Android 版 Chrome 上可定制的页面缩放
Android 版 Chrome 的另一个值得注意的补充是增强的页面缩放(Page Zoom)功能。此功能允许用户在不破坏整体布局的情况下增加网页上文本的大小。
用户可以根据自己的偏好自定义缩放级别,并将其应用于他们访问的所有网页或选择特定页面。可以通过 Chrome 右上角的三点菜单访问此功能。
对新功能的深入探讨
这些功能的引入标志着 Google 在其持续致力于辅助功能和 AI 驱动创新方面迈出了重要一步。通过将 AI 无缝集成到现有工具中并引入新功能,Google 正在赋能用户以更直观和可访问的方式与技术互动。
AI 在辅助功能方面的潜力
Gemini 集成到 TalkBack 中突显了 AI 在增强有视觉障碍人士的辅助功能方面的巨大潜力。通过提供 AI 生成的图像描述并使用户能够提出关于其内容的问题,Google 正在开启一种新的独立性和信息访问水平。
在 Alt 文本不可用或不足的情况下,此技术尤其有价值,它允许用户更深入地了解视觉内容。
表达型字幕:超越简单的转录
更新后的表达型字幕功能通过捕捉通过语音传达的细微差别和情感,超越了简单的转录。此功能对于听力障碍人士特别有益,因为它提供了可能在传统字幕中遗漏的额外上下文和信息。
持续时间和声音标签的加入进一步提高了字幕的准确性和信息性,使其成为更有价值的沟通工具。
简化 PDF 辅助功能
Chrome 中增强的 PDF 辅助功能解决了有视觉障碍人士长期面临的挑战。通过自动识别扫描的 PDF 并使屏幕阅读器能够与它们互动,Google 正在使这些文档更易于访问和使用。
在当今的数字时代,许多文档以 PDF 格式分发,此更新尤其重要。
页面缩放:可定制的观看体验
Android 版 Chrome 上的可定制页面缩放功能使用户可以更好地控制他们的观看体验。通过允许用户在不影响网页布局的情况下调整文本大小,Google 正在迎合各种视觉偏好和需求。
此功能对于有低视力或喜欢以较大尺寸阅读文本的人特别有益。
Google 对创新的一贯承诺
这些新功能展示了 Google 对创新和辅助功能坚定不移的承诺。通过不断突破技术的界限,Google 正在为每个人创造一个更具包容性和可访问性的世界。
AI 集成到现有工具中以及新功能的引入正在为未来铺平道路,在未来,技术可以赋能个人克服障碍并充分发挥他们的潜力。
辅助功能的未来
Google 宣布的这些进步让我们得以一窥辅助功能的未来。随着 AI 技术的不断发展,我们可以期待看到更多创新的解决方案来满足残疾人士的需求。
从能够导航物理世界的 AI 驱动助手到满足个人需求的个性化学习体验,一切皆有可能。
Google 在塑造未来中的作用
Google 在塑造辅助功能的未来中起着至关重要的作用。通过投资研发、与辅助功能专家合作以及将辅助功能纳入其产品和服务中,Google 正在为行业树立标准。
Google 对辅助功能的承诺激励着其他公司和组织优先考虑包容性,并为每个人创造一个更易于访问的世界。
实际应用和收益
上述功能转化为用户在各种场景中的实际收益。
增强社交互动
想象一下收到朋友的照片。借助 AI 驱动的 TalkBack,视觉障碍用户可以与图像互动,提出澄清问题,以充分参与共享体验。这可以培养更深层次的社交联系。
改善在线购物体验
对于某些人来说,浏览电子商务平台可能具有挑战性。直接从屏幕上查询 Gemini 关于产品详细信息的能力消除了歧义,从而促成更明智的购买决策。
启用信息访问
增强的 PDF 辅助功能实现了对扫描文档中包含的重要信息的访问,这对于促进有视觉障碍人士充分参与公民和职业生活至关重要。
个性化网络
自适应页面缩放为特定的视觉需求提供了量身定制的解决方案。它解决了不同的用户偏好,使所有人都可以更轻松地浏览网络。
技术基础
了解这些升级系统中的技术可以更清楚地了解上述列出的功能。
AI 驱动的图像分析
将 Gemini AI 模型集成到 TalkBack 中涉及到开发用于精确图像描述和问题解决的算法。在后台实施复杂的深度学习过程以提供相关的解决方案。
表达型字幕的细微差别
表达型字幕功能需要自然的语音处理能力。通过结合高级语音转文本翻译方法以及持续时间和音调识别,可以更准确地捕获人类语音中涉及的细微差别。
优化的 PDF 处理
Chrome 用于 PDF 文档的新处理能力将光学字符识别 (OCR) 用于扫描的文档。这样一来,甚至是不可搜索的 PDF 图像也可以直接进行分析。为了查找、复制和阅读文本,浏览器会从 OCR 结果中创建索引和文本层。
前端灵活性
页面缩放功能突出了 Google 对可定制性的承诺。灵活缩放的现代网站设计理念得到了利用,因此,使用 Android 的消费者可以在范围广泛的设备上自定义其体验,以获得更好的可见性。这些创新为以用户为中心的互联网浏览体验奠定了基础。
更广泛的影响
这些特性远不止是小更新。它们预示着技术与人交互方式的革命性转变,尤其是对于有障碍的人。
通过技术赋权
通过最大限度地减少残疾人士遇到的障碍,Google 使他们能够更积极地参与生活的多个方面,无论是教育、商业还是社交。
促进数字包容性
Google 通过采取行动来实现技术可用性方面的公平性,从而缩小了数字鸿沟。该公司的努力证明了其对数字公平的承诺。
促进创新
Google 对可访问特性的奉献精神促进了各个领域的新发展。AI技术和可访问特性的发展鼓励了整个市场更多的创造力。
构建一个更好的社区
使技术可访问可培养一种文化,这种文化优先考虑社区中的用户体验、包容性和多样性。这建立了一个合作的数字环境。
最终,Google 的努力证明了一种努力,即将技术转变为社会力量,确保所有人都能从进步中获益,而不仅仅是某些群体。这种态度为更受欢迎和技术更复杂的未来奠定了框架。
考虑因素和未来方向
虽然这些增强功能代表了重大飞跃,但仍有进一步改进和扩展的途径。
改进 AI 准确性
可以通过在更大和更多样化的数据集上训练 Gemini 模型来进一步提高 AI 生成的图像描述和响应的准确性。持续改进对于确保提供的信息准确且相关至关重要。
扩展语言支持
以更多语言提供表达型字幕将大大扩展其覆盖面和影响力,使其能够被更广泛的全球受众所使用。
解决边缘案例
需要进一步研究以解决边缘案例并确保这些功能在各种情况下都能可靠地运行。这包括使用不同类型的图像、口音和 PDF 文档进行测试。
与其他平台集成
将这些辅助功能与其他平台和服务集成将创建更无缝和一致的用户体验。例如,将 TalkBack 与社交媒体应用程序集成将使用户能够更有效地参与视觉内容。
通过不断努力改进和扩展,Google 可以巩固其在辅助功能方面的领导地位,并为每个人创建一个更具包容性的数字世界。