马来西亚的机遇:拥抱中国开源AI革命

今年早些时候,DeepSeek R1大型语言模型(LLM)的问世,标志着生成式人工智能(Gen AI)的一个变革性时刻。这不仅在技术上,而且在商业和战略层面上都是一个巨大的飞跃。DeepSeek 证明,开发复杂的 LLM 可以以比之前认为的低得多的成本进行,而且至关重要的是,这种创新并不局限于硅谷。

DeepSeek 的出现对马来西亚的 AI 生态系统产生了深远的影响,超越了美国和中国之间正在进行的技术竞争,以及马来西亚股市对数据中心热情暂时降温。

开源的意义

DeepSeek 的 LLM 的一个关键方面是它们基于开源技术。像 DeepSeek R1 这样的模型在开源或开放权重许可下可用,这意味着它们可以被自由下载、修改和使用。这种开源性质对 LLM 的演变和商业化具有重要意义。

多年来,百度、阿里巴巴和腾讯等中国科技巨头一直在积极开发开源 AI 模型。这种战略得到中国大学和政府倡议的支持,采用“开放创新”方法,旨在加速研发,并有可能在 AI 能力方面超越美国。

然而,对开源 AI 的承诺不仅仅局限于中国。Meta 和 Google 也发布了开放权重 LLM,这是出于竞争因素的考虑。这背后的理由植根于“将互补品商品化”的商业战略。如果一家公司严重依赖 Gen AI,那么投资开源替代方案可能比仅仅依赖像 ChatGPT 这样的专有模型更有益。即使仍然使用专有 LLM,良好的开源模型的可用性也会削弱 OpenAI 等主要供应商的定价能力。

这一策略与服务器和网络设备生产商 Oracle 采取的行动类似。Oracle 支持开源 Linux 操作系统,以抑制微软 Windows 操作系统的定价主导地位。

无论动机如何,高质量的开放权重 LLM 的可用性显着降低了像马来西亚这样的国家的成本,为创新打开了新的大门。

对政府和企业的好处

对于马来西亚政府而言,开源 LLM 提供了运行自己的 AI 模型的机会,而无需将敏感数据传输给商业第三方或外国。这加强了数据自主权和主权。

对于马来西亚公司,尤其是创业公司而言,开放权重 LLM 创造了一个公平的竞争环境。他们可以访问与中国和美国同行相同的基本 LLM,从而促进创新和竞争。

解决文化和政治偏见

中国 AI 的兴起也突显了一个重大挑战:文化和政治偏见。中国 LLM 经常被训练来反映中国共产党(CCP)的历史叙事和政治观点,遵守中国大陆的审查规范。

即使没有明确的审查,AI 模型也天生带有其训练数据中存在的偏见。如果主要在英文文本上进行训练,这些模型将反映西方文化观点和偏见。

好消息是 LLM 可以相对容易地进行重新训练。类似于中国 LLM 接收到促进 CCP 忠诚度的护栏一样,其他开源项目也表明 DeepSeek R1 可以进行后训练以减轻感知到的偏见。

本地化和文化敏感性

这种经验强调了像马来西亚这样的国家需要发展自己本地化、训练和后训练 LLM 以适应当地情况的能力。没有考虑到马来西亚的种族和宗教敏感性、社会等级制度或当地俚语的模型可能会表现不佳或生成有害内容。

马来西亚已经具备一些 LLM 开发能力。例如,本地创业公司 Mesolitica 在 1 月份发布了开源 MaLLaM LLM,展示了比 ChatGPT 等主流 LLM 更细致入微的马来西亚语理解。

然而,马来西亚决策者对开源 AI 的潜力以及本地 LLM 开发重要性的认识仍然不清楚。

国家AI战略

2021 年起草的国家 AI 路线图很少提及开源。同样,来自新的国家 AI 办公室(NAIO)的最新文件也没有强调开源 AI。

虽然预测 AI 发展的未来仍然具有挑战性,但当前一代 LLM 的开源性质为马来西亚提供了一个赶上技术领导者的绝佳机会。

抓住机遇

为了利用这一点,马来西亚需要更新其政策,以适应更小、更经济实惠的 LLM 的出现。这包括简化这些模型的采用,使 Gen AI 更容易被中小企业使用,并实现本地部署,尤其是在互联网接入有限的农村地区。

扩大马来西亚开发 LLM 的能力,使它们与当地语言更相关,并注意当地文化至关重要。投资 LLM 培训,可能以当地大学为中心,可以被视为一种公共产品,培养国内人才并推动当地的研发。

数据自主权和国家安全

托管自己的 LLM 对于确保国家数据自主权至关重要。LLM 收集的数据可能很有价值,这些信息应该由本地组织存储和利用,而不是被外国实体利用。

以下是马来西亚如何具体利用开源 AI 运动的更详细的分解:

  • 政策更新: 应对现有政策进行审查和更新,以反映当前的 AI 格局,特别关注开源 LLM 的机遇和收益。这包括简化数据使用法规(同时保持适当的隐私保护)、提供资金和激励措施来支持开源 AI 的研发,以及在整个政府部门推广开源 AI 解决方案的采用。

  • 人才发展投资: 建设一支技术娴熟的队伍至关重要。马来西亚需要投资于专注于 AI、机器学习和自然语言处理的教育项目和培训计划。这些项目应强调开源工具和技术,确保毕业生有能力为当地的 AI 生态系统做出贡献。奖学金、研究补助金和行业合作可以进一步鼓励学生从事 AI 职业。

  • 大学主导的研究: 当地大学应站在 AI 研发的最前沿。政府可以提供资金在大学建立 AI 研究中心,重点关注 LLM 定制、文化适应等领域,以及开发专门针对马来西亚特定需求的新开源 AI 工具。建立大学和产业之间的合作平台可以加速知识和技术的转移。

  • 支持初创企业和中小企业: 开源 AI 为初创企业和中小企业提供了创新和竞争的重大机遇。马来西亚应向这些企业提供有针对性的支持,包括获得资金、指导和技术专长。这种支持可能包括为开发 AI 驱动的产品和服务提供赠款,为 AI 设立孵化器和加速器,以及将初创企业与潜在客户和投资者联系起来的项目。

  • 数据治理框架: 建立健全的数据治理框架对于确保 AI 的负责任和道德的使用至关重要。该框架应解决数据隐私、安全和偏差等问题,并应与国际最佳实践保持一致。它还应促进 AI 生态系统内的数据共享,同时保护敏感信息。这可以通过创建国家数据存储库以及建立明确的数据访问和使用指南来实现。

  • 公私合作: 公共和私营部门之间的合作对于推动 AI 创新至关重要。政府可以与私营公司合作,在医疗保健、教育和交通运输等领域开发和部署 AI 解决方案。这些合作可以利用两个部门的专长和资源,从而产生更有效和更有影响力的成果。

  • 国家 AI 基础设施: 投资于国家 AI 基础设施,包括高性能计算资源和数据存储设施,对于支持 AI 研发至关重要。该基础设施应可供全国各地的研究人员、初创企业和企业使用,为他们提供创新和竞争所需的工具。

  • LLM 的文化适应: 马来西亚应投资于将开源 LLM 进行调整以反映该国独特的文化和语言景观的项目。这包括开发流利的马来西亚语和其他当地语言的模型,并对马来西亚多样化的文化和传统保持敏感。这需要一种多学科方法,包括语言学家、文化专家和 AI 工程师。

  • 网络安全考虑: 随着 AI 越来越深入地集成到关键基础设施中,网络安全必须成为重中之重。马来西亚需要投资于 AI 特定网络安全解决方案的研发,并建立明确的 AI 系统安全指南。这包括开发强大的机制来检测和缓解 AI 相关的威胁。

  • 促进道德 AI: 确保以合乎道德和负责任的方式开发和使用 AI 至关重要。马来西亚应建立国家 AI 伦理框架,其中概述指导 AI 开发和部署的原则和价值观。该框架应解决公平、透明和问责制等问题。

通过采取这些积极措施,马来西亚可以利用开源 AI 的力量来推动经济增长、改善公共服务并解决该国一些最紧迫的挑战。机遇之窗已经敞开,马来西亚必须果断行动以抓住它。致力于培育一个强大、包容和合乎道德的 AI 生态系统对于实现这种变革性技术的全部潜力至关重要。重点应始终放在赋权,创新和长期可持续发展上。