开源计算架构的新篇章
当 DeepSeek 以其颠覆性的姿态震撼人工智能领域时,它所引发的涟漪效应远不止于此。在半导体行业,这一技术突破激起了更深层次的震荡。特别值得关注的是,达摩院玄铁团队在春节期间宣布,其 RISC-V 架构已成功适配 DeepSeek-R1 系列蒸馏模型。这一消息迅速点燃了业界对 RISC-V 这一新兴开源指令集在人工智能领域潜力的热情。
在最近举行的玄铁 RISC-V 生态大会上,这一潜力得到了进一步的印证。大会上传出的消息表明,RISC-V 不仅在高性能计算领域取得了突破,更在人工智能领域展现出强劲的势头。玄铁首款服务器级 CPU C930 即将于下月交付,其显著提升的 AI 算力,预示着 RISC-V 正在加速布局“高性能+AI”的全链路生态。
这不禁引人深思:开源的 RISC-V 算力架构,是否会成为开源 AI 的天作之合?
AI 模型变革:算力架构创新的催化剂
一位资深的芯片行业专家指出,DeepSeek 所带来的震撼,不仅局限于 AI 领域,更波及到了整个芯片行业。DeepSeek 通过极致的深度优化,大幅降低了大模型训练和推理的成本。这一变革打破了算力、内存和互联之间原有的平衡,为算力架构的创新带来了前所未有的机遇。
传统观念认为,AI 大模型需要庞大的算力和内存资源,因此更适合部署在云端,而非边缘端设备。然而,DeepSeek 的横空出世,彻底颠覆了这一认知。它不仅降低了训练成本,更显著降低了推理的门槛。这使得大模型从云端走向边缘端成为了可能。
具体而言,DeepSeek 降低了对计算资源的需求,使得单机部署成为现实。这为更好地适配边缘和端侧设备创造了条件。随着 AI 技术深入千行百业,覆盖日益多样化的应用场景,业界迫切需要将 AI 从云端推向边缘端,以满足数据安全、个性化定制、私有化部署等多元化需求。
可以预见,随着 DeepSeek 技术的普及,AI 芯片的形态将迎来重塑。AI 芯片将不再局限于依赖云计算的大规模并行计算,而是向能够在边缘设备上独立运行的低功耗芯片方向发展。AI 芯片正朝着多样化和高效化的方向迈进。
这也引发了业界人士的深入思考:什么样的算力架构才能最好地适应 AI 的发展需求?
并行计算的 GPU 或许不再是唯一的答案。串行计算(通用计算)同样可以成为 AI 计算的基础。业界实践表明,DeepSeek 对多种计算体系都展现出良好的支持。在 CPU 上,DeepSeek 不仅能够快速部署,还具备出色的推理效果。这使得 CPU 重新回到了竞争的舞台。与专用的 GPU 相比,CPU 的一大优势在于其通用性强、调度简单,能够大幅降低算力需求,并充分发挥同构计算的优势。
而在 CPU 的阵营中,最引人瞩目的莫过于后起之秀 RISC-V。
春节期间,达摩院在搭载 RISC-V 处理器玄铁 C920 的芯片上,对 DeepSeek-R1 系列蒸馏模型进行了适配。整个过程仅耗时 1 小时,体验快捷流畅。这意味着,DeepSeek 系列模型将能够顺利部署并流畅运行在全系列玄铁 CPU 平台,以及其他搭载 RISC-V 架构芯片的各类 AI 端侧设备上。
RISC-V 之所以备受关注,一方面是因为它作为新兴的指令集架构,有别于 x86 和 ARM 的封闭或付费授权模式,坚定地走开源开放的道路。其开源精神与 AI 的发展理念天然契合。得益于开源开放的特性,RISC-V 已经吸引了全球 1000 多家企业的参与,从硬件设计到软件工具链,其生态系统正在迅速壮大。根据 RISC-V 国际基金会的数据,全球已有超过 80 种不同的 RISC-V 芯片产品推向市场。
另一方面,RISC-V 的灵活性和可扩展性也是其备受青睐的重要原因。RISC-V 允许开发者根据具体需求定制指令集。由于其指令集采用了模块化设计,开发者可以根据不同的应用场景进行定制。这种灵活性是传统架构所无法比拟的。
从技术角度来看,RISC-V 也非常适合新型的 AI 计算。RISC-V 的向量扩展(V-extension)能够有效处理大规模并行运算,满足 AI 计算对高效性的要求。RISC-V 的开放架构与硬件加速模块可以协同工作,进一步提升 AI 任务的执行效率。通过与 AI 算法的深度结合,RISC-V 架构可以设计专用的硬件加速单元,实现对特定 AI 模型的优化。
因此,许多资深的芯片行业专家都对 RISC-V 寄予厚望,期待它能成为 AI 时代的原生计算架构。
在阿里达摩院主办的第三届玄铁 RISC-V 生态大会上,这一期待终于迎来了曙光。
玄铁首款服务器级 CPU:高性能与 AI 的双剑合璧
在大会上,中国工程院院士倪光南表示:“开源 RISC-V 不仅是一项技术创新,更是一场影响未来计算架构的全球化变革。”作为“生而开源”的芯片指令集架构,RISC-V 在本轮半导体产业周期中表现突出,正从嵌入式系统加速挺进高性能等复杂场景,并为 AI 算力提供了新的选择。
在 RISC-V 国际基金会 2024 年批准的 25 项标准中,超过一半与高性能或 AI 相关。RISC-V 国际基金会理事会主席 Lu Dai 在大会现场表示,RISC-V 指令集最激动人心的进展之一是 Matrix 扩展,这将推动 RISC-V 成为 AI 领域令人敬畏的力量。
据预测,到 2030 年,RISC-V 的整体份额将达到 20%,在 AI 加速器中的占比有望突破 50%。
在大会上,达摩院玄铁推出了其新一代旗舰处理器,同时也是首款服务器级处理器 C930。
C930 的通用性能算力达到了 SPECint2006 基准测试 15/GHz 的水平。这是一个什么样的概念呢?倪光南院士指出,RISC-V 要真正进入高性能计算市场,其 SPECint 2006 软件测试成绩必须超过 15 分的高性能标准。因此,C930 的问世,标志着 RISC-V 迈出了具有里程碑意义的一步。
此外,C930 还搭载了 512 bits RVV1.0 和 8 TOPS Matrix 双引擎,将通用高性能算力与 AI 算力原生结合,并开放了 DSA 扩展接口,以支持更多特性要求。
同时,达摩院还披露了 C908X、R908A、XL200 等玄铁处理器家族新成员的研发计划,这些新产品将向 AI 加速、车载、高速互联等方向持续演进。具体而言:
- C908X 定位为玄铁首款 AI 专用处理器,支持 4096 bits 超长数据位宽 RVV1.0 矢量扩展。
- R908A 面向车规级芯片的高可靠性需求。
- XL200 则将提供更大规模、更高性能的多簇一致性互联。
为了配合玄铁处理器的能力拓展,达摩院还基于 Linux、Android、RTOS 三套主流操作系统,推出了三套玄铁 SDK。这些 SDK 将达摩院多年来积累的玄铁软件能力全面整合,以更完整、便捷、稳定的方式向行业输出。其中,玄铁 Linux SDK 提供了包括 Hypervisor 虚拟化、CoVE 安全框架、玄铁 AI 框架、高性能算子库在内的丰富子系统,助力 RISC-V 在高性能和 AI 场景的开发。
在发展高性能软硬件技术的同时,玄铁更积极地引领产业上下游合作伙伴协同创新,加快布局 RISC-V“高性能+AI”的全链路生态。
阿里巴巴的 RISC-V 之路:玄铁引领国际开源社区
对于不太熟悉玄铁的读者,这里做一个简单的介绍。
2018 年,阿里巴巴确立了主攻 RISC-V 方向的品牌:玄铁。一年后,首款处理器“玄铁”C910 问世,一举成为当时性能最强的 RISC-V 处理器。自那时起,玄铁便一直是国际 RISC-V 生态的引领者,也是对国际开源社区贡献最大的中国机构之一。目前,玄铁在 RISC-V 国际基金会技术委员会及 10 多个技术小组中担任主席或副主席职位,积极推动着 AI 方向标准化的建设。
自 2019 年以来,玄铁已经陆续推出了 13 款 RISC-V 处理器,覆盖了高性能、高能效、低功耗等不同应用场景,包括:
- C 系列(Computing):主要针对高端服务器、高端边缘计算和行业类、消费级 IPC。
- E 系列(Embedded):主要应用于高端 MPU 与各类 MCU。
- R 系列(Reliability & Realtime):面向高端 SSD、通信、高端工控、车载等场景。
- XT-Link:CPU 多簇互联 IP。
迄今为止,玄铁处理器的出货量已超过 40 亿颗,成为国内 RISC-V 领域影响力和市场占有率最大的处理器产品系列之一。
在发展过程中,玄铁一方面持续突破 RISC-V 的性能天花板,不断向更高性能领域进发;另一方面积极拥抱 AI,致力于推动 RISC-V 成为 AI 原生算力架构。
在指令集架构技术层面,玄铁充分利用 RISC-V 架构优异的开放性和灵活性,很早就定制了面向 AI 应用的指令集扩展。其提出的矩阵运算(Matrix)扩展指令集,优化了大模型核心算子 GEMM,可以加速 AI 推理及训练,提升端侧 AI 的能效。
在处理器方面,玄铁 C907 首次实现了 Matrix 扩展,较传统方案提速 15 倍。升级版 C920 支持 Vector 1.0 和 Vector Crypto 技术,GEMM 性能指标提升超过 7 倍,Transformer 算子性能提升超过 17 倍。而最新的旗舰处理器 C930 兼具 vector 和 matrix 双引擎,有望成为端侧 AI 大模型的理想搭档。
在软件栈层面,玄铁打造了端到端的 RISC-V AI 全栈软硬件平台,为芯片厂商提供通用的、高效的 AI 算力基础设施,形成了面向业务的流水线设计,真正实现了从底层硬件设计到上层软件工具链的便捷深度优化。该平台已成功应用于云端视频转码卡、AI 边缘计算盒子、RISC-V 笔记本电脑等终端产品。
除了自身的技术实力,达摩院 RISC-V 团队也一直致力于引入产业上下游伙伴的力量,不断完善 RISC-V 的“高性能+AI”生态版图。
在去年的大会上,RISC-V 开源笔记本电脑“如意 BOOK 甲辰版”惊艳亮相,实现了大型商用软件的稳定、流畅运行。今年,中科院软件所进一步介绍了“如意 BOOK 乙巳版”、智能机器人、AI PC 等 RISC-V 高性能应用。
其中,基于 C920 的 AI PC 原型机已经成功运行了 Llama、Qwen、DeepSeek 等开源模型,支持 AI 个人助手、AI 编程、视觉识别等 AI 应用。可以说,这打通了从开源硬件架构到开源操作系统,再到开源 AI 模型的“开源 AI 全链路”,单位计算能耗还降低了 30%。
此外,玄铁还与合作伙伴共同构建了 RISC-V 视频编解码方案、云桌面解决方案等实用解决方案。为了支撑更多行业的应用,玄铁还将 RISC-V 算力布局到了一体机、工控 AI、机器人等领域。
倪光南院士表示,玄铁这种务实的投入和创新,正是 RISC-V 生态健康发展的重要驱动力。
开源的未来:拥抱无限可能
DeepSeek 的成功是开源精神的胜利。开源指令集架构 RISC-V 问世十余年来,走出了一条与封闭式的 x86 和授权模式的 ARM 截然不同的发展道路。它让业界看到了通过更简洁、更开放的方式进行架构创新的机遇,因此也获得了越来越多的认可。
RISC-V 正逐渐成为 AI 时代原生架构的最佳候选。一方面,RISC-V 坚持开源开放,始终处于演进变化之中,能够紧跟 AI 快速变化的步伐;另一方面,RISC-V 具有强大的扩展性,既可以通过移植适配与原有架构生态兼容,也可以作为原生架构支撑不断涌现的新场景。
正如中科院软件所 RISC-V 负责人郭松柳所言:“AI 软件栈仍在高速演进,RISC-V 作为三大主流指令集架构中最灵活、最开放的一个,无疑最为适合 AI 时代的技术创新节奏。”