Google发布SignGemma:新型手语AI模型

Google 近期推出了 SignGemma,这是一种创新的人工智能模型,旨在弥合手语使用者和不懂手语的人之间的沟通障碍。SignGemma 在 Google I/O 2025 大会上发布,旨在将手语实时翻译成口语文本,从而促进更顺畅的互动。这项举措突显了 Google 致力于利用人工智能造福社会,特别是为聋人和听障人士群体服务。该模型专为设备端功能而设计,反映了人工智能应用朝着更高的可访问性和响应性发展的趋势。

SignGemma 的架构:一种开源方法

SignGemma 是 Google 开源 Gemma 系列的一部分,该系列是一组为效率和可移植性而设计的轻量级模型。这种开源方法至关重要,因为它允许社区协作,使开发人员和研究人员能够为模型的改进和适应不同环境做出贡献。Gemma 系列背后的基本思想是使人工智能变得易于访问和适应,确保它可以有效地部署在各种设备上,即使是那些计算资源有限的设备。SignGemma 旨在支持多种语言,使其能够支持各种手语和口语。

对美国手语 (ASL) 的支持

虽然 SignGemma 旨在支持多种语言,但它目前在将美国手语 (ASL) 翻译成英语方面表现出最佳性能。这种专业化是一个战略起点,利用了可用于 ASL 的大量资源和数据集。然而,Google 的愿景超越了 ASL,计划扩大模型的功能,以便在未来包括其他手语。这种扩展取决于收集足够的数据和完善模型的算法,以准确解释不同手语的细微差别。

用户反馈和公开可用性

SignGemma 目前正处于早期测试阶段,预计将于 2025 年底公开提供。Google 积极征求潜在用户的反馈,包括聋人和听障人士群体的成员,以完善模型并确保它满足他们的需求。这种方法强调了以用户为中心的设计的重要性,确保该技术不仅实用,而且对用户的文化和语言环境敏感。Google 为希望参与测试和反馈过程的人创建了兴趣表格,表明了其对包容性和协作的承诺。

SignGemma 的潜力突出显示

Google 通过各种渠道强调了 SignGemma 在显著提升包容性技术方面的潜力,包括在 X(前身为 Twitter)上分享的该模型的演示。这展示了该模型的功能,并说明了其对沟通可访问性的潜在影响。该演示让人们得以一窥未来,届时实时手语翻译可能会变得司空见惯,打破沟通障碍,并促进个人之间更大的理解。

专家对 SignGemma 的看法

Google DeepMind 的 Gemma 产品经理 Gus Martins 称赞 SignGemma 是“有史以来功能最强大的手语理解模型”,强调了其先进的功能和创新潜力。Martins 强调了协作的重要性,鼓励开发人员以及聋人和听障人士群体的成员为模型的开发和扩展做出贡献。这种行动号召突显了驱动 SignGemma 的开源精神,邀请不同的观点和专业知识来塑造其未来。

开发人员社区的参与

在 Google I/O 大会的开发人员主题演讲中,Martins 明确鼓励开发人员以及聋人和听障人士群体的成员以 SignGemma 基础模型为基础进行构建。这种鼓励至关重要,培养了一种对模型开发的归属感和共同责任感。通过让开发人员社区参与进来,Google 希望释放 SignGemma 的新应用和功能,扩大其潜在影响和覆盖范围。

来自手语人工智能专家的观点

英国手语人工智能公司 Signapse 的首席执行官 Sally Chalk 赞扬了 SignGemma 的开发,但强调了聋人社区参与的至关重要性。Chalk 强调需要确保为聋人社区设计的技术是与他们合作开发的,确保它准确地反映了他们的语言和文化需求。这种观点凸显了必须指导人工智能技术开发的伦理考量,特别是那些影响边缘化社区的技术。

手语人工智能的快速创新步伐

Chalk 指出,手语人工智能的进展正在加速,“几乎每天都有令人兴奋的进展”。这突显了该领域的动态性,受到机器学习、自然语言处理和计算机视觉进步的推动。快速的创新步伐既带来了机遇,也带来了挑战,需要不断适应并致力于保持在技术进步的最前沿。

深入了解 SignGemma 的技术方面

SignGemma 的技术基础依赖于几个关键组件。该模型架构可能包含基于 Transformer 的神经网络,这已成为许多自然语言处理任务的标准。Transformer 擅长捕捉顺序数据中的长程依赖关系,使其非常适合手语翻译,因为手语的含义会受到前面和后面的手语的影响。该模型在大量手语视频以及相应的口语转录数据集上进行训练。该数据集经过精心整理,以确保多样性和准确性,反映了聋人社区中存在的各种手语风格和语言变异。

SignGemma 的设备端功能是通过模型压缩和优化技术实现的。这些技术在不牺牲准确性的前提下,减少了模型的尺寸和计算需求。这对于在资源受限的设备(如智能手机和平板电脑)上实现实时翻译至关重要。SignGemma 的开源性质有助于社区进一步优化工作,从而可能产生更高效的模型版本。

手语人工智能中的伦理考量

用于手语的人工智能模型的开发引发了几个重要的伦理考量。一个担忧是训练数据中存在偏差的可能性,从而导致加剧现有的社会不平等。 例如,如果数据集主要包含一种手语风格或方言的示例,则该模型在其他变体上的表现可能较差。 仔细分析训练数据并减轻可能存在的任何偏差至关重要。

另一个伦理考量是人工智能翻译对人工翻译员角色的影响。 虽然人工智能翻译可以作为促进沟通的宝贵工具,但不应被视为人工翻译员的替代品,人工翻译员提供文化背景和机器无法复制的细致理解。 必须确保负责任和合乎道德地使用人工智能翻译,以此补充而不是取代人工翻译员。

手语人工智能的未来:挑战与机遇

手语人工智能的未来蕴藏着巨大的潜力。 随着像 SignGemma 这样的模型不断改进,它们可以彻底改变聋人和听障人士群体的沟通可访问性。 开发更复杂的模型,这些模型可以处理多种手语、各种手语风格和真实世界的场景是一个关键的重点领域。

主要的挑战之一是高质量训练数据的稀缺性。 手语数据集通常比口语数据集更小且多样性更低。 应对这一挑战需要合作努力来收集和注释更多的手语数据,并让聋人社区成员参与进来。

另一个挑战是需要对手语表示法进行更大的标准化。 不同的手语具有不同的语法结构和手语约定。 开发易于人工智能模型处理的标准化表示法可以促进开发更通用和强大的翻译系统。

尽管存在这些挑战,但在研究人员、开发人员和聋人社区成员的奉献精神和创造力的推动下,手语人工智能领域正在迅速发展。 随着技术不断发展,我们可以期望看到更多创新的人工智能应用程序,这些应用程序可以增强使用手语的个人的能力并将其连接起来。

除了翻译之外:手语人工智能的其他应用

虽然翻译是手语人工智能最突出的应用,但该技术还可以在其他几个领域产生重大影响。 一个这样的领域是手语识别,它涉及从视频输入中自动识别和解释手语。 手语识别可用于各种应用,例如交互式教育工具、手语辅导系统以及视频内容的可访问性功能。

另一个潜在的应用是为听力损失人士创建辅助设备。 人工智能驱动的可穿戴设备可以提供对话的实时字幕,提醒用户注意重要的声音并提供环境意识的视觉线索。 这些设备可以显着提高听力损失人士的生活质量,使他们能够更充分地参与社交和职业环境。

此外,手语人工智能可用于创建更具包容性和可访问性的在线内容。 自动生成的视频和直播字幕可以使更广泛的受众(包括聋人和听障人士)可以访问信息。 这可以促进教育、娱乐和在线生活其他方面的更大公平和包容性。

扩展 SignGemma 的语言功能

虽然 SignGemma 目前擅长 ASL 到英语的翻译,但其长远潜力在于其支持多种语言(包括手语和口语)的能力。 扩展多语言功能的挑战非常巨大,因为每种手语都有其独特的语法、词汇和文化背景。 为了有效地在不同的手语之间进行翻译,人工智能模型必须理解这些细微差别并相应地调整其算法。

实现此目标的一种方法是使用迁移学习,模型从一种语言(例如,ASL)的数据中学习,然后将该知识应用于另一种语言(例如,英国手语)。 这可以显着减少训练所需的标记数据量,从而使支持各种手语变得更加可行。

另一种策略是将语言知识融入到模型架构本身中。 通过编码有关手语语法、形态和句法的信息,该模型可以更好地理解不同手语的基础结构,并更准确地在它们之间进行翻译。

社区反馈在塑造 SignGemma 未来方面的作用

Google 积极主动地征求社区反馈对于确保 SignGemma 满足其预期用户的需求至关重要。 通过在整个开发过程中与聋人和听障人士社区互动,Google 可以深入了解手语人工智能的挑战和机遇。

社区反馈可以为广泛的设计决策提供信息,从选择合适的手语风格和词汇到开发直观的用户界面。 它还可以帮助识别和减轻训练数据中潜在的偏差,确保该模型对所有用户都公平公正。

此外,社区参与可以培养对技术的归属感和共同责任感。 通过授权聋人社区成员为 SignGemma 的开发做出贡献,Google 可以创建一个真正反映他们的需求和愿望的工具。

结论:SignGemma 作为包容性沟通的催化剂

SignGemma 代表了手语人工智能领域向前迈出的重要一步。 通过将先进的机器学习技术与对社区参与的承诺相结合,Google 正在创建一个有潜力改变聋人和听障人士群体沟通可访问性的工具。

虽然在扩展模型的语言功能、解决伦理考量和促进负责任的使用方面仍然存在挑战,但 SignGemma 的潜在益处是巨大的。 随着技术不断发展,它可以使个人能够更自由地沟通、更轻松地访问信息并更充分地参与社会。

SignGemma 不仅仅是一个翻译工具; 它是包容性沟通的催化剂,弥合了听力世界和非听力世界之间的差距,并促进更大的理解和同情心。 通过利用人工智能的力量来打破沟通障碍,Google 正在为建设一个对所有人来说更公平和更易于访问的未来做出重大贡献。