开源 AI 的变革性转变
过去,开源 AI 开发是一项分散的工作,经常导致模型表现不佳。在 2023 年之前,很少有非营利实体拥有足够的资源来训练 AI 模型,使其能力接近 GPT-2。大型科技公司主导着专有 AI 领域,而开源 AI 在很大程度上被局限于小众应用。
2023 年标志着一个转折点。多个具有宽松许可的新基础模型发布,随后 Meta 与 Microsoft 合作发布了其开创性的开源 Llama 2 模型。这一事件引发了一系列活动,在六个月内创建了超过 10,000 个衍生模型。开源 AI 开发的新时代已经开始。
雄心勃勃的目标和杰出的指导委员会
在此背景下,AI 联盟从成立之初就设定了一系列令人印象深刻的目标。这些目标包括:
- 促进开放合作
- 建立 AI 的治理和护栏
- 开发基准测试工具和明确的政策立场
- 优先考虑广泛的教育计划
- 培育强大的硬件生态系统
联盟的实力进一步体现在其指导委员会的素质上,该委员会拥有一批知名的商业组织和大学。
成员标准:对开放性和协作的承诺
要成为 AI 联盟的成员,组织必须满足四个关键标准:
- 与使命一致: 潜在成员必须与培养安全、开放科学和创新的使命保持一致。
- 致力于项目: 成员必须致力于从事与联盟使命相符的重大项目。
- 观点的多样性: 潜在成员必须愿意为全球成员内部观点和文化的多样性做出贡献,目前全球成员已超过 140 个组织,预计还会进一步增长。
- 声誉: AI 联盟寻求在 AI 开源社区中具有公认声誉的教育者、建设者或倡导者作为成员。
成员分类:建设者、推动者和倡导者
联盟成员通常分为三类:
- 建设者: 这些成员负责创建使用 AI 的模型、数据集、工具和应用程序。
- 推动者: 这些成员通过教程、用例和一般社区支持来促进开放 AI 技术的采用。
- 倡导者: 这些成员强调 AI 联盟生态系统的优势,并在组织领导者、社会利益相关者和监管机构中培养公众信任和安全。
六个关键重点领域:AI 生态系统的整体方法
AI 联盟确定了其在六个关键重点领域的长期优先事项。然而,重要的是要注意,联盟对整个 AI 生态系统采取整体方法,鼓励社区成员和开发人员参与一个或多个领域,并根据兴趣或优先事项的变化进行调整。
以下是六个关键重点领域的详细介绍:
技能和教育
该领域致力于向广大受众提供 AI 知识,包括评估 AI 风险的消费者和商业领袖,以及构建 AI 应用程序的学生和开发人员。它旨在简化在特定领域寻找专家指导的过程,并包括一个模型评估计划。
2024 年,联盟发布了《AI 基本能力指南》,这是一份综合资源,来自一项广泛的调查,旨在确定 AI 中的关键角色以及这些角色所需的技能。尽管该指南最近才发布,但已经进行了九次修订,并计划进行后续调查以解决初始调查中发现的问题。
信任与安全
这个关键领域探讨了所有 AI 应用程序成功所必需的信任和安全的基本要素。基准、工具和方法被用来确保模型和应用程序是高质量、安全和值得信赖的。这包括支持不断发展的行为标准和对风险的有效应对。
该领域的工作组收集与信任和安全相关的最佳概念,并将用户与他们所需的专业知识联系起来。AI 联盟网站上发布的《开源 AI 信任与安全状况 - 2024 年底版》调查强调了该领域的的需求和成功。许多 AI 联盟成员正在通过研发工作来解决研究和环境差距。
应用和工具
该小组专注于探索构建高效且强大的 AI 应用程序的工具和技术。它还在开发一个 AI 实验室,以促进 AI 应用程序的实验和测试,从而加速创新。
硬件支持
该领域致力于通过确保 AI 软件堆栈与硬件无关来培育强大的 AI 硬件加速器生态系统。MLIR 和 Triton 等技术是实现高性能硬件可移植性的关键软件工具。这些工具使组织能够利用其首选硬件,提高灵活性和性能,同时减少对专有系统的依赖。
基础模型和数据集
该领域专注于服务不足领域的模型,包括多语言、多模态、时间序列、科学和其他领域。例如,科学和特定领域的模型针对气候变化、分子发现和半导体行业。
有效的模型和 AI 应用程序架构需要具有明确治理和使用权的有用数据集。’开放可信数据倡议’ 正在阐明此类数据集的要求,并构建合规数据集的目录。这项工作旨在很大程度上消除对法律、版权和隐私问题的担忧。
倡导
监管政策的倡导对于创建健康和开放的 AI 生态系统至关重要。所有 AI 政策和法规都应代表平衡的观点,而不是有偏见的观点。
深入探讨信任与安全:2025 年倡议
信任与安全是 AI 联盟内一个重要且广泛的领域,众多专家致力于开发工具来检测和减轻仇恨言论、偏见和其他有害内容。’信任与安全评估倡议’ 是 2025 年的一项重大任务,它提供了对整个评估范围的统一视图——不仅是安全评估,还包括性能评估和评估 AI 模型和应用程序有效性的其他领域。一个子项目正在探索特定领域的安全优先事项,例如健康、法律和金融。
在 2025 年中期,AI 联盟计划发布一个 Hugging Face 排行榜,使开发人员能够:
- 搜索最符合其需求的评估
- 比较开放模型与这些评估的性能
- 下载并部署这些评估以检查他们自己的私有模型和 AI 应用程序
该倡议还将提供有关各种用例的重要安全性和合规性方面的指导。
支持本地 AI:硬件无关的软件堆栈
并非所有 AI 模型调用都将依赖托管的商业服务。某些情况需要气隙解决方案。支持 AI 的智能边缘设备正在推动在本地部署新的、小型且强大的模型,通常无需互联网连接。为了支持这些用例并促进具有灵活硬件配置的大规模模型服务,AI 联盟正在开发硬件无关的软件堆栈。
协作的真实示例:SemiKong 和 DANA
有两个例子说明了联盟成员之间的开放协作如何为所有人带来显著的好处:
SemiKong
SemiKong 是三个联盟成员之间的合作成果。他们创建了一个专门针对半导体制造工艺领域的开源大型语言模型。制造商可以利用此模型来加速新设备和工艺的开发。SemiKong 拥有关于半导体器件物理和化学的专业知识。在短短六个月内,SemiKong 就引起了全球半导体行业的关注。
SemiKong 是通过使用东京电子策划的数据集对 Llama 3 基础模型进行微调而开发的。这种调整过程产生了一个特定行业的生成式 AI 模型,与通用基础模型相比,它具有更强的半导体蚀刻工艺知识。有关 SemiKong 的技术报告可供查阅。
DANA(领域感知神经符号代理)
DANA 是 Aitomatic Inc.(位于硅谷)和 Fenrir Inc.(位于日本)的联合开发项目。它是现在流行的代理架构的早期示例,其中模型与其他工具集成以提供互补功能。虽然仅模型本身就可以取得令人印象深刻的结果,但大量研究表明,LLM 经常会产生不正确的答案。SemiKong 论文中引用的一项 2023 年的研究表明,典型 LLM 错误率为 50%,而 DANA 对推理和规划工具的补充使用将目标应用程序的准确性提高到 90%。
DANA 采用神经符号代理,将神经网络的模式识别能力与符号推理相结合,从而实现严格的逻辑和基于规则的问题解决。逻辑推理与规划工具(例如设计装配线流程)相结合,可产生准确可靠的结果,这对于工业质量控制系统和自动化规划与调度至关重要。
DANA 的多功能性扩展到多个领域。例如,在财务预测和决策中,DANA 可以理解市场趋势并根据复杂的理论做出预测,同时利用结构化和非结构化数据。同样的能力也可以应用于检索和评估医学文献和研究信息,确保诊断和治疗符合既定的医疗协议和实践。从本质上讲,DANA 可以改善患者的治疗效果并减少关键患者应用中的错误。
持续增长的坚实基础
AI 联盟在 2025 年初处于强势地位,成员遍布 23 个国家,众多工作组专注于主要的 AI 挑战。联盟拥有 1,200 多名工作组合作者,参与了 90 多个活跃项目。在国际上,AI 联盟参加了在 10 个国家/地区举行的活动,覆盖了 20,000 多人,并发布了五份关于重要 AI 主题的指南,以协助研究人员和开发人员构建和利用 AI。
AI 联盟发布了在 IBM 的 Granite 系列和 Meta 的 Llama 模型等模型上使用 AI 的示例。其不断增长的“配方”集合利用最流行的开放库和模型来实现常见的应用模式,包括 RAG、知识图谱、神经符号系统以及新兴的代理规划和推理架构。
扩大规模:2025 年及以后的雄心勃勃的计划
2025 年,AI 联盟致力于将其影响力和影响力扩大十倍。其两个新的主要举措,如前所述,是’开放可信数据倡议’和’信任与安全评估倡议’。AI 联盟还计划建立一个行业标准的社区实验室,用于开发和测试 AI 应用技术。其特定领域的模型计划将继续发展。例如,新的气候与可持续发展工作组计划开发多模态基础模型和开源软件工具,以应对气候变化及其缓解措施中的关键挑战。
到 2030 年,AI 预计将为全球经济贡献约 20 万亿美元。到那时,预计 70% 的工业 AI 应用将运行在开源 AI 上。AI 专业人员的短缺预计也将比现在更加严重。AI 联盟成员或许能够通过与其他成员合作来获得各种专业知识和资源共享,从而缓解这一挑战。
AI 联盟的发展轨迹与其他成功的开源组织相似,例如 Linux 基金会、Apache 软件基金会和开源促进会。这些包括:
- 全面的 AI 教育和技能计划
- 全球倡导负责任的 AI
- 创建工具以确保 AI 的安全性和可信赖性,以及易于开发和使用
- 与学术机构合作研究
AI 联盟的领导层将继续吸引开发人员和研究人员,以及商业和政府领导人。AI 联盟的领导层已将扩大全球合作规模确立为 2025 年的首要任务。总而言之,AI 联盟有基础发展成为一个主导的全球力量,塑造、改进和创新人工智能的未来。