基于合乎道德数据的AI:科幻梦想成真

在对科技行业关于“不可能”的论断的惊人反驳中,一个专注的研究团队已经实现了许多人认为无法实现的目标:创建了一个完全基于合乎道德来源的数据训练的 AI 模型。这项开创性的成就,由来自麻省理工学院 (MIT)、康奈尔大学和多伦多大学等著名机构的专家带头,为 AI 发展的未来提供了一个可行且负责任的蓝图。秘诀是什么?一个精心策划的数据集,完全由公开许可或公共领域的内容组成。

合乎道德的数据来源的艰巨任务

通往这个合乎道德的 AI 绿洲的旅程绝非易事。正如研究人员坦率承认的那样,真正的瓶颈不是计算能力,而是纯粹的人力。组装 Common Pile v0.1(一个超过 8 TB 的庞大数据集)的过程需要进行艰苦的手动清理和重新格式化,使其适合 AI 训练。想象一下,筛选几乎无穷无尽的数字信息,寻找任何可能破坏数据集的错误。

但真正的挑战在于对版权状态的细致双重检查。在混乱的互联网领域中,猖獗的错误许可是一种常态,将版权验证变成了一项西西弗斯式的任务。

“这不是你可以简单地扩大可用资源的事情,”研究合著者 Stella Biderman 告诉《华盛顿邮报》。“我们使用自动化工具,但我们所有的东西最终都是手动注释并由人工检查的。这真的很难”。

筛选数 TB 的数据以查找版权问题的过程并不容易。研究人员不能简单地向该过程添加更多计算机芯片并期望找到解决方案。相反,他们需要手动验证和注释所有数据。

战胜逆境:一个合乎道德的 AI 的诞生

尽管存在令人生畏的障碍,Biderman 和她专注的团队坚持了下来。创建 Common Pile 的艰巨任务完成后,他们释放了它的潜力来训练一个包含 70 亿参数的大型语言模型 (LLM)。由此产生的 AI 不仅能与 Meta 的 Llama 1 和 Llama 2 7B 等行业基准相媲美,而且还能以干净的道德良知做到这一点。

但 AI 研究领域的演变速度快如闪电。重要的是要记住,Meta 在几年前发布了 Llama 1 和 Llama 2,这在 AI 世界中相对永恒。

一个精干、坚定的团队能够以有限的资源取得可比的结果,这证明了他们的独创性。一个特别鼓舞人心的发现是美国国会图书馆中超过 130,000 本英文书籍的宝库,这些书籍之前被忽视了。

AI 和版权的阴暗水域

在 AI 时代,版权仍然是一个棘手的伦理和法律问题。像 OpenAI 和 Google 这样的行业巨头通过吞噬他们所看到的一切来积累庞大的数据集,从新闻文章到个人社交媒体帖子。这种做法引起了各方的批评。作者甚至提起诉讼,声称非法使用受版权保护的书籍来训练 AI 模型。

科技行业辩称,这种做法构成合理使用,并辩称,如果没有不受限制的数据访问,AI 的发展将“不可能”。这项最新的研究对硅谷的说法提出了严厉的反驳。

虽然这项成就标志着向前迈出的重要一步,但它并没有消除所有伦理考虑因素。大型语言模型具有取代人类工人的潜力,仍然提出了关于劳动力未来的根本性问题。此外,使用公共领域的作品可能并非所有人都乐于接受,特别是那些创造性贡献现在被 AI 反刍的人。

即使在假设的未来,AI 公司被迫寻求许可或为数据使用提供补偿的情况下,版权持有者仍然可能面临允许 AI 训练的不当压力。在训练 AI 模型时可以调动的巨大资源意味着,大多数版权持有者将无法抵御大型 AI 公司允许他们使用数据的压力。

迈向 AI 的透明度和问责制

然而,Biderman 仍然务实。她不抱幻想,认为像 OpenAI 这样的公司会突然接受合乎道德的数据来源。相反,她希望她的工作能够鼓励数据使用方面更大的透明度。哪些数据集被用于训练哪些 AI 产品?知道这个问题的答案可能会对 AI 的未来产生重大影响。

“即使是部分透明度也具有巨大的社会价值和适度的科学价值,”她告诉《华盛顿邮报》。

目前,用于训练给定 AI 的确切数据集是严密保护的秘密。复制 AI 模型的唯一方法是要么被告知当前 AI 模型是如何创建的,要么对 AI 模型进行逆向工程,这可能需要大量时间和精力。

AI 发展中的范式转变

这项研究的意义远远超出了 AI 伦理的范畴。它标志着 AI 的发展方式发生了根本性的转变,表明伦理考虑因素和技术进步不必相互排斥。通过优先考虑透明度、负责任的数据来源和人为监督,我们可以创造一个 AI 为人类服务的未来,而不是相反。

解决伦理问题和社会影响

科技行业关于道德数据使用是一个难以逾越的障碍的论点现在受到了果断的挑战。该项目的成功凸显了在坚实的道德基础上构建 AI 模型的可行性。然而,AI 发展的伦理维度不仅仅限于版权问题。AI 的社会经济影响,包括工作岗位流失和算法偏见,需要仔细考虑。

影响 AI 的伦理考虑因素不仅仅是来源。我们还必须验证数据是否没有导致 AI 模型对任何人群存在偏见。

促进透明度和问责制

为了建立信任并确保负责任的创新,AI 行业必须拥抱透明度和问责制。公司应公开用于训练其模型的数据来源以及用于减轻偏见的方法。独立审计和外部监督可以进一步加强问责制并防止伦理失误。

可以实施 AI 透明度来验证数据集是否包含足够广泛的分布,以避免 AI 模型中的偏差。可以通过外部审核来实现 AI 问责制,以检查潜在的伦理失误。

协作和开源解决方案

道德采购 AI 的开发需要协作和开源解决方案。通过共享数据集、方法和最佳实践,研究人员和开发人员可以加速进步并共同应对道德 AI 发展带来的挑战。开源计划还可以使较小的组织和个人能够参与到 AI 革命中,从而确保更公平地分享这项技术的好处。

更美好未来的承诺

完全基于合乎道德数据训练的 AI 模型的创建代表了为负责任和有益的 AI 而奋斗的里程碑。这项开创性的成就不仅证明了道德 AI 开发是可能的,而且还为其他人提供了一个可以遵循的路线图。通过拥抱透明度、协作和对道德原则的承诺,我们可以在保护人类价值观和促进更加公正和公平的未来的同时,释放 AI 的全部潜力。