xAI 探索类人声音:揭秘训练秘密
人工智能 (AI) 模仿人类互动的追求催生了一些引人入胜,有时甚至令人不安的发展。为了创造不仅智能,而且平易近人的 AI 助手,各公司正在采用各种技术来训练其语音模型。最近的披露揭示了其中一项努力:xAI 的 "Project Xylophone"。
"Project Xylophone" 内幕:打造对话式 AI
泄露的文件揭示了 "Project Xylophone" 的内部运作,这是 Scale AI 的一项旨在改进 xAI 的语音模型的计划。 该项目围绕着聘请承包商来录制他们自己在各种主题上即兴对话。 其总体目标是使 xAI 的模型具有更自然、更像人类的品质,摆脱通常以 AI 互动为特征的机器人音调。
这些由数据标记公司 Scale AI 采购的承包商,因录制与同伴就从平凡到富有想象力的话题的对话而获得报酬,一切都是为了使 xAI 的语音模型听起来更真实。 截至 4 月,Scale AI 至少为 xAI 管理着 10 个生成式 AI 项目,反映了对该领域的巨大投入。
全行业对更具对话性的 AI 的推动源于吸引用户使用这些服务的优质付费版本的愿望。 通过使 AI 互动更加愉快和自然,公司希望吸引用户投资这些先进技术。
对话训练的蓝图
Business Insider 获得了一系列 Scale AI 文件,这些文件详细介绍了 "Project Xylophone" 的运作方式。 这些文件,包括项目说明、审查员指南和对话主题指南,提供了项目方法的全面概述。
虽然文件中未披露正在训练的特定 xAI 模型,但该项目对“音频质量和自然流畅性”的关注表明,它非常重视创造无缝且引人入胜的用户体验。 特别鼓励具有配音经验的承包商参与,这反映了声音表演在实现所需真实感水平方面的重要性。
"Project Xylophone" 的结构围绕两个主要组成部分:“对话”和“草原”。 "对话" 部分涉及由三名承包商组成的小组通过 Zoom 进行真实的对话。这些对话由包含数百个提示的电子表格指导,涵盖从后世界末日世界的生存策略到管理焦虑和计划国际旅行等广泛的主题。
深入探讨对话提示:一窥 AI 的想象力
"Project Xylophone" 中使用的对话提示让我们可以一窥 AI 模型正在接受训练以处理的场景和主题类型。 这些提示的范围从实用到哲学,甚至深入到科幻领域。
以下是 Scale AI 文件中使用的一些对话开场白的示例:
- 如果您要为第一个火星定居点设计"文化",您绝对想重现哪些 地球传统,以及您会很高兴永远抛弃哪些?
- 在您的日常生活中,您希望一支超级英雄团队能够介入并为每个人解决的 "恶棍" 是什么?
- 如果僵尸末日明天来临,您在逃离家园之前会 首先拿走什么?
- 假设您是火星殖民地的任务心理学家,您私下里希望在您的殖民伙伴中找到什么样的人格类型或古怪的特质?
- 作为房主,您经历过的最难忘的管道灾难是什么,您是尝试自己修理还是立即打电话求助?
- 您还记得第一次要求更多钱或更好福利的时候吗? 当时您在想什么?
这些提示旨在引出承包商自然、未经脚本编写的回应,然后可以使用这些回应来训练 AI 模型以处理各种对话场景。
"良好"对话的说明强调听起来自然和情感,具有不同的语调和中断的重要性。 其目标是模仿现实世界人类对话的自发性和不可预测性。
"草原" 方法:无剧本且真实
与结构化的"对话"部分相比,"草原"部分侧重于独奏工作者以其母语创建无剧本、听起来自然的录音。 这些工作者被赋予了一种对话类型和子类别,并被鼓励让对话自由流动,甚至鼓励背景噪音。
"草原"部分包括数十个子类别,包括“苏格拉底式提问”、“反思性讲故事”、“宫廷爱情场景”、“英雄与恶棍的对抗”和“协作式解谜”。 这些子类别通常涉及特定要求,例如不同的口音、声音效果或发明的语言模式。
"草原"方法反映了以更真实和不受约束的方式捕捉人类对话的细微差别和复杂性的愿望。
AI 训练的经济学:一瞥薪酬
参与 "Project Xylophone" 的 Scale AI 承包商会因其贡献而获得报酬,这突显了 AI 训练的经济方面。 据报道,承包商因其工作而获得每个任务几美元的报酬。
据报道,“草原”项目的付款结构最初为每个任务 3 美元,但后来降至每个任务 1 美元。 每个任务都涉及录制一个音频文件,然后承包商将其上传到 Scale AI 平台并手动转录。
低工资凸显了创建和训练 AI 模型所涉及的通常不可见的劳动。
数据质量的重要性:捕捉人类语音的细微差别
AI 语音模型的成功取决于大量高质量数据的可用性。 "Project Xylophone" 反映了通过重现真实世界场景(例如人与人之间听起来自然的对话)来生成合适数据的努力。
"草原" 文件明确指示承包商在其转录中包含诸如 "uh" 之类的填充词。 这种对细节的关注突显了捕捉人类语音的细微差别的重 要性,包括停顿、犹豫和其他非语言线索。
通过将这些元素纳入训练数据,AI 模型可以学习产生更自然和引人入胜的对话。
将个性注入 AI:竞争优势
"Project Xylophone" 是 AI 公司在 AI 模型中注入个性以寻求在日益拥挤的市场中脱颖而出的更广泛趋势的一部分。
例如,据报道,Meta 通过 Scale AI 运营了一个项目,要求为其 AI 训练的零工人员采用不同的角色,例如“一位聪明而神秘的巫师”或“一位超级兴奋的音乐理论学生”。
OpenAI 的 Sam Altman 承认,最新的 GPT-4o 变得“过于谄媚和烦人”,促使人们重置以使其回复更加自然。
这些努力反映了一种认识,即 AI 模型不仅需要智能,还需要讨人喜欢和有亲和力。
AI 训练的伦理维度:在准确性与偏见之间取得平衡
随着 AI 模型变得越来越复杂,人们对偏见和伦理考量的担忧日益增加,引发了关于负责任的 AI 开发的辩论。
xAI 将 Grok 营销为一种在政治上比马斯克所说的“觉醒”竞争对手更前卫的聊天机器人,其训练方法有时严重依赖右翼或反主流观点。
xAI 还加大了控制 Grok 不可预测一面的力度。 招聘的新员工正在“红队”Grok,压力测试其是否存在不安全或违反政策的回复,尤其是在有争议的主题以及“NSFW”或“精神错乱”模式下。
这些努力突出了创建既具有信息性又合乎道德的 AI 模型所面临的挑战,以及持续监控和评估的必要性。
AI 语音模型的持续演变:无缝互动的未来
"Project Xylophone" 和类似计划代表着在创建能够与人类无缝互动的 AI 语音模型的道路上迈出了重要一步。 随着 AI 技术的不断发展,我们可以期待在未来看到更加复杂和听起来自然的 AI 助手。
追求类人 AI 语音模型并非没有挑战。 对偏见、伦理考量以及滥用潜力的担忧依然存在。 然而,这些技术的潜在益处是巨大的,从提高可访问性到加强沟通和协作。
随着 AI 语音模型变得越来越普遍,重要的是主动应对这些挑战,并确保这些技术以负责任和合乎道德的方式使用。 AI 语音模型的未来充满希望,但塑造那个以造福全人类的方式的未来取决于我们。
正如泄露的文件所证明的那样,创造更像人类的 AI 是一项艰巨的任务。 AI 不仅必须流利地说出正确的语法,而且还必须具有对与之交谈的人来说似乎真实的个性。 这些公司现在发现自己面临着这项艰巨的任务。