为了庆祝全球无障碍宣传日 (GAAD),Google 很高兴推出 Android 和 Chrome 的新更新,以及为生态系统提供的新资源。人工智能的进步不断使世界变得越来越无障碍。今天,为了庆祝全球无障碍宣传日,Google 正在为 Android 和 Chrome 的产品推出新更新,并为开发人员构建语音识别工具添加新资源。
更多由人工智能驱动的 Android 创新
Google 正在巩固 Google 的工作,并将 Google AI 和 Gemini 的最佳特性集成到为视觉和听觉定制的核心移动体验中。
通过 Gemini 和 TalkBack 获取所有详细信息
去年,Google 将 Gemini 的功能引入 Android 的屏幕阅读器 TalkBack,为盲人或视力障碍者提供人工智能生成的图像描述,即使没有替代文本也是如此。今天,Google 正在扩展这种 Gemini 集成,以便人们可以提问并获得有关其图像的回复。
这意味着下次朋友给你发一张他们新吉他的照片时,你可以获得一个描述,并询问有关品牌和颜色的后续问题,甚至图像中还有什么。现在,人们还可以获得描述并询问有关其整个屏幕的问题。因此,如果你正在你最喜欢的购物应用程序上购买最新的促销商品,你可以询问 Gemini 关于商品的材质或是否有折扣。
更具体地说,此更新通过利用 Gemini 的强大功能,将图像描述提升到了前所未有的水平。用户不再局限于静态描述;他们可以与图像互动,提出特定问题并获得细致的答案。例如,用户可以上传一张历史地标的照片,并询问其建筑风格、建造年份或任何其他相关细节。Gemini 的智能处理能力将解析图像,提取相关信息,并以易于理解的格式提供全面响应。此举极大地提升了无障碍体验。
此外,Gemini 与 TalkBack 的集成超出了简单的图像识别。它还扩展到了屏幕内容,允许用户询问有关其设备上显示的信息的问题。如果你在浏览复杂的网页或使用不熟悉的应用程序时遇到困难,你可以简单地激活 TalkBack 并询问 Gemini 澄清或指导。Gemini 会分析屏幕内容,识别关键元素,并以清晰简洁的方式提供解释或说明。这种交互式方法使有视觉障碍的用户能够以前所未有的信心和独立性浏览数字世界。通过这种方式,Gemini不仅仅是一个工具,更像是用户的智能助手,随时提供所需的帮助。
Gemini与TalkBack的集成,也为教育领域带来了新的机遇。视障学生可以利用这一功能,更好地理解课程内容,完成学习任务。例如,当他们遇到复杂的图表或公式时,可以借助Gemini的图像描述和答疑功能,深入理解其含义和应用。这种辅助学习方式,将极大地提升视障学生的学习效率和学习体验。
了解字幕背后更多的情感
借助表达式字幕 (Expressive Captions),你的手机可以为手机上大多数应用程序中的任何带声音的东西提供实时字幕 — 使用人工智能不仅可以捕捉某人所说的话,还可以捕捉他们说话的方式。Google 知道人们表达自己的一种方式是通过拖长他们单词的声音,这就是为什么 Google 开发了表达式字幕上的新持续时间功能,因此你可以知道体育广播员何时在喊出“amaaazing shot”,或者视频消息不是“no”而是“nooooo”。你还将收到更多声音标签,因此你可以知道某人何时在吹口哨或清嗓子。这个新版本正在美国、英国、加拿大和澳大利亚以英语推出,适用于运行 Android 15 及更高版本的设备。
Expressive Captions 通过捕获微妙的语调变化、语速和声音线索,彻底改变了字幕体验。想想看:用简单的“好”来表达同意、兴奋或讽刺都可以。传统的字幕只能记录单词,而 Expressive Captions 会破译隐藏的情感,并将其通过文本提示传达给观众。例如,叹气可能表示沮丧或疲惫,而咯咯笑可能表示娱乐或快乐。通过包含这些非语言线索,Expressive Captions 可以在听力受损或喜欢依靠视觉辅助的人的观看体验中添加深度和背景。传统的字幕往往显得生硬和缺乏感情,而Expressive Captions的出现,则让字幕变得更加生动和富有表现力。
此外,Expressive Captions 的持续时间功能增加了另一层真实感和参与感。通过准确反映单词的拉伸和延长,字幕传达了说话者的情感强度和重要性。一个冗长的“不!”传达了比简洁的“不”更多的抵抗,而一个拖长的“精彩”激发了兴奋和敬畏。这种注意力细节使字幕更具吸引力,信息量更大,更具共鸣,从而促进观众与他们所消费内容之间更深层次的联系。通过持续时间功能,用户可以更准确地理解说话者的情感状态,从而更好地理解内容。
除了情感增强之外,Expressive Captions 还包含声音标签,以识别和转录各种声音线索,如口哨,欢笑和掌声。这些标签为字幕添加了上下文,并允许观看者完全掌握音频环境,即使他们的听力受到限制。通过识别关键声音元素,Expressive Captions 使观看者能够参与并理解他们所消费的内容,从而弥合了听觉和视觉信息之间的差距。声音标签的加入,极大地丰富了字幕的信息量,让用户可以更好地理解视频内容发生的场景和氛围。
总而言之,Expressive Captions不仅仅是传统的字幕工具,更是一个情感辅助工具,它可以帮助听力受损人士和其他需要字幕的用户更好地理解视频内容,从而提升他们的观看体验。
改进世界各地的语音识别
2019 年,Google 启动了 Euphonia 项目,以寻找使语音识别对于非标准语音人来说更易于访问的方法。现在,Google 正在支持世界各地的开发人员和组织,因为他们将这项工作带到更多的语言和文化背景中。
新的开发者资源
为了改善全球工具的生态系统,Google 正在通过 Euphonia 项目的 GitHub 页面为开发人员提供 Google 的开源存储库。他们现在可以开发用于研究的个性化音频工具,或者训练他们的模型以适应不同的语音模式。
通过提供开源存储库,Google 允许开发人员、研究人员和组织利用 Euphonia 项目的结果并为之做出贡献。此协作方法加速了非标准语音语音识别技术的进步,确保了其可用性能够扩展到各种语言和文化背景。通过分享代码、数据集和模型,Google 培养了一个创新和实验社区,为辅助技术创造了突破性的解决方案。此举将极大地促进语音识别技术的发展和普及。
此外,开发者资源的可用性使个人或组织能够定制语音识别工具以满足其特定需求。研究人员可以利用这些资源来调查不同的语音模式,并开发能够准确转录各种说话方式的算法。初创公司或小型企业可以将其集成到其应用程序或服务中,以增强其包容性和可访问性。通过降低语音识别技术的进入门槛,Google 实现了创新,让开发者能够创造有意义的解决方案,从而使有语音障碍的人能够与世界交流和互动。通过这种方式,语音识别技术将不再是少数人的专利,而是可以为更多人所使用的工具。
支持非洲的新项目
今年早些时候,Google 与 Google.org 合作,为伦敦大学学院创建数字语言包容中心 (CDLI) 提供支持。CDLI 致力于通过创建 10 种非洲语言的开源数据集、构建新的语音识别模型,并继续支持该领域的组织和开发人员生态系统来改进非洲非英语人士的语音识别技术。
Google.org 对数字语言包容中心 (CDLI) 的支持证明了该公司致力于弥合非洲语言技术差距的承诺。通过为 CDLI 提供资金和资源,Google 正在帮助在非洲大陆开发更准确、更具包容性的语音识别模型。CDLI 专注于创建非洲语言的大规模开放数据集,这是训练强大语音识别系统的重要一步。通过收集和注释非洲语言的语音样本,数字语言包容中心 (CDLI) 正在为语音识别技术的未来奠定基础,该技术可以准确地转录非洲人民的语音,无论其语言或口音如何。此举将极大地促进非洲地区的语音识别技术发展。
除了创建数据集外,数字语言包容中心 (CDLI) 还致力于构建新的语音识别模型,这些模型专门针对非洲语言的独特语言特征而设计。这些模型考虑了非洲语言的音调变化、语音模式和词汇,这通常与英语和其他广泛研究的语言不同。通过定制语音识别模型以适应非洲语言的复杂性,CDLI 正在提高语音识别技术的准确性和可靠性,因此非洲人民可以访问和使用它。此举将极大地提升非洲人民使用语音识别技术的体验。
最重要的是,数字语言包容中心 (CDLI) 正在重点支持非洲大陆的组织和开发人员生态系统。CDLI 提供培训计划、指导机会和财务资源,帮助构建一个熟练的专家社区。通过促进非洲语言技术的进步,CDLI 正在为非洲人民创造经济机会,并建立一个强大、包容的数字未来。通过这种方式,非洲地区将可以更好地融入全球数字经济。
扩展学生的辅助选项
辅助工具对于残疾学生尤其有用,从使用面部手势通过面部控制导航他们的 Chromebook 到使用阅读模式自定义他们的阅读体验。
现在,当你在 Chromebook 上使用大学理事会的 Bluebook 测试应用程序(学生可以在其中参加 SAT 和大多数大学先修课程考试)时,你将可以使用所有 Google 的内置辅助功能。这包括 ChromeVox 屏幕阅读器和听写,以及大学理事会自己的数字测试工具。
以下是辅助功能如何彻底改变不同残疾学生的学习体验:
- 有视觉障碍的学生可以利用 ChromeVox 屏幕阅读器,它可以口头朗读屏幕上的文本,从而可以访问书面内容,即使他们无法看到它也是如此。ChromeVox 还可以提供有关图像、按钮和链接的描述,从而使学生可以顺利浏览网络和应用程序。通过ChromeVox,视障学生可以像其他学生一样,轻松地获取信息和完成学习任务。
- 运动障碍的学生可能会发现面部控制的面部控制功能非常有用,它允许他们使用面部表情(如微笑或抬起眉毛)导航 Chromebook。此免提控件方法对于无法传统方式使用键盘或鼠标的学生来说可以改变游戏规则。面部控制技术,极大地提升了运动障碍学生的学习体验,让他们可以更加方便地使用电脑。
- 有学习障碍的学生可以使用阅读模式自定义他们的阅读体验。阅读模式使学生可以调整字体大小、颜色和间距,使其阅读文本更容易。它还可以消除干扰,例如图像和广告,使学生能够专注于内容。阅读模式,可以帮助学习障碍学生更好地集中注意力,提升学习效率。
总的来说,Google 的辅助工具为残疾学生打开了一个充满可能性的世界。通过提供定制的访问和支持,这些工具使学生可以克服障碍、充分发挥潜力并在学术上取得成功。通过这些辅助工具,残疾学生可以更加自信地面对学习挑战,实现自己的学术目标。
使 Chrome 更易于访问
每天有超过 20 亿人使用 Chrome,Google 始终致力于使 Google 的浏览器更易于使用,并使每个人都可以使用诸如实时字幕和屏幕阅读器用户的图像描述之类的功能。
在 Chrome 上更轻松地访问 PDF
以前,如果你在桌面 Chrome 浏览器中打开扫描的 PDF,你将无法使用屏幕阅读器与之交互。现在有了光学字符识别 (OCR),Chrome 会自动识别这些类型的 PDF,因此你可以像其他任何页面一样突出显示、复制和搜索文本,并使用屏幕阅读器读取它们。
光学字符识别 (OCR) 技术的集成彻底改变了视力障碍者或喜欢使用屏幕阅读器访问内容的个人使用 PDF 文件的方式。以前,扫描的 PDF 文件本质上对屏幕阅读器来说是无法访问的,因为它们被视为图像而不是机器可读的文本。这意味着有视觉障碍的人无法阅读、搜索或与扫描 PDF 文件中的内容交互。
通过 OCR 技术,Chrome 现在可以自动分析扫描的 PDF,识别文件中的文本,并将其转换为机器可读格式。此过程使屏幕阅读器可以读取 PDF 中的文本,从而使视力障碍者像任何其他数字文档一样访问和使用这些文件。OCR技术的应用,极大地提升了视障人士使用PDF文件的体验。
OCR 集成的优点是多方面的:
- **增强的可访问性:**OCR 使以前无法访问的扫描 PDF 文件可供使用屏幕阅读器的人访问。这为无法独立访问扫描文档的个人打开了一个充满可能性的世界。
- **改进的用户体验:**OCR 使用户可以与扫描的 PDF 文件以与任何其他数字文档相同的方式进行交互。他们可以突出显示文本、复制部分和搜索特定单词或短语,从而增强他们的阅读和研究体验。
- **更高的效率:**OCR 消除了手动转录扫描 PDF 文件中的文本的需要。这节省了时间和精力,使用户可以专注于手头的任务,而不是努力访问信息。
总而言之,在 Chrome 中集成 OCR 技术是一项重大进步,它可以让视力障碍者更轻松地访问 PDF 文件。通过使以前无法访问的文档可搜索、可读和互动,Chrome 正在帮助弥合阅读和学习方面面临挑战的个人之间的数字鸿沟。通过OCR技术,Chrome浏览器正在变得更加包容和易于使用。
使用页面缩放轻松阅读
页面缩放现在可让你在 Android 的 Chrome 中增加你看到的文本大小,而不会影响网页布局或你的浏览体验 — 就像它在 Chrome 桌面上的工作方式一样。你可以自定义你要放大多少,并轻松地将首选项应用于你访问的所有页面或仅特定页面。
页面缩放功能可以改变视力较差或喜欢更大文本的清晰度,以便更轻松地阅读的个人。通过允许用户在不影响网页布局的情况下调整文本大小,Chrome 确保文本在视觉上更加舒适、易于阅读,没有文本重叠或损坏格式的风险。
页面缩放功能具有以下优势:
- **改进的可读性:**页面缩放使用户可以调整他们所见文本的大小,这使得阅读更轻松、更愉快。这对于视力较差、有阅读障碍或其他视力障碍的人特别有用。
- **增强的舒适度:**页面缩放使用户可以自定义文本大小,以满足他们的个人偏好和视觉要求。这有助于减少眼睛疲劳,并使更长时间内容的阅读更加舒适。
- **保留布局:**与简单地缩放整个网页不同,页面缩放仅允许用户增大或减小文本大小,同时保持原始布局的完整性。这确保了网页易于导航,并且所有元素都按预期放置。
- **灵活的自定义:**页面缩放提供了广泛的自定义选项,允许用户微调文本大小,以满足他们的特定需求。用户可以选择预定义的缩放级别或输入自定义值,并将其首选项应用于所有网页或仅特定网站。
要开始使用此功能,只需点击 Chrome 右上角的三个点菜单,然后设置你的缩放首选项。页面缩放功能,让Chrome浏览器更加人性化。