AI主权之路:台湾如何应对DeepSeek

DeepSeek 的挑战

一月份 DeepSeek-R1 的发布在科技界引发了极大的兴趣。此前,中国语言模型,如百度的 Ernie 和字节跳动的 Doubao,在中文应用、数学和编码方面显示出了潜力,但由于英语能力较弱和可访问性受限而受到限制。然而,DeepSeek-R1 标志着一个重要的里程碑,它是第一个获得国际认可的中文 LLM。

DeepSeek-R1 最引人注目的方面之一是其据称较低的开发成本。与 OpenAI 的 GPT-4o 相比,据说其训练成本高达 1 亿美元以上,而 DeepSeek 研究人员声称他们的聊天机器人的开发成本仅为 560 万美元。为了进一步推动效率的说法,DeepSeek 工程师使用 Nvidia H800 等中端 CPU 训练了 R1 模型,而不是像 GPT-4o 或 Anthropic 的 Claude 等模型中使用的顶级芯片。尽管美国限制向中国出口高性能芯片,但 DeepSeek-R1 仍设法通过仅使用分布在 256 台服务器上的 2,048 个处理器,就胜过了其他领先的机器人。

这种卓越的效率和较低的开发成本在很大程度上归功于复杂的编程技术,包括 PTX,一种类似于汇编的语言,使开发人员能够微调性能并最大限度地利用硬件。

发布后不久,DeepSeek-R1 应用程序迅速跃升至美国 Apple App Store 免费下载排行榜的首位,超越了 ChatGPT、TikTok 和 Meta 的社交媒体平台。纳斯达克经历了下跌,Nvidia 的股票在 DeepSeek-R1 首次亮相后暴跌。

质疑 DeepSeek 的声明

尽管最初的热情高涨,但许多观察家对 DeepSeek 关于其 LLM 的声明的有效性提出了质疑。分析师认为,所声明的数字可能只包括计算成本,而忽略或低估了基础设施、硬件和人力资源费用。

位于台北的生成式 AI 和云游戏服务提供商 Ubitus 的创始人兼 CEO Wesley Kuo 也表达了这些担忧,他表示实际成本可能远高于报道的数字。Ubitus 在 Nvidia 的支持下,支持了 Project TAME,这是一个使用繁体中文字符的本地化 LLM。他们提供了 H100 CPU 和游戏数据。Ubitus 还与 Foxlink 和 Shinfox Energy 合作成立了 Ubilink.AI,与 Asus 合作建立了台湾最大的绿色能源驱动的 AI 超算服务中心。

Kuo 强调了该公司参与为政府(包括日本政府)开发 LLM 应用程序和模型,涉及游戏、旅游和零售等行业,突出了 AI 在解决劳动力短缺和人口老龄化方面的潜力。

数据完整性问题

Kuo 与 OpenAI 和 Microsoft 的观点一致,认为 DeepSeek 可能是通过模型蒸馏获取数据的。这个过程涉及训练较小的语言模型来模仿较大模型的输出。OpenAI 和 Microsoft 声称 DeepSeek 利用了 OpenAI 的应用程序编程接口来促进其开发。

Kuo 断言 DeepSeek 从 OpenAI 获取了数据,并且围绕该公司关于效率的说法存在误解。他指出,DeepSeek-R1 拥有 6700 亿个参数,明显大于 Meta AI 的 Llama 3.1 405B。这些参数是模型在训练期间学习的内部数值,用于进行预测。Kuo 还暗示 DeepSeek 的模型可能是从 Llama 3.1 蒸馏出来的。

除了这些反驳之外,人们还对 DeepSeek-R1 的能力提出了担忧。专家认为,像其前身一样,R1 在专业的、特定任务的功能方面表现出色,但在通用性能方面落后于 GPT-4o 的版本。

DeepSeek 模型的一个主要限制是限制对信息的自由访问。用户发现,询问敏感的政治话题会得到回避的回答。关于新疆维吾尔族少数民族和台湾的地位等话题,DeepSeek 的回答反映了中国共产党的官方立场。研究表明,DeepSeek 的很大一部分输出受到审查,以压制与民主、人权和中国有争议的主权主张相关的信息。

台湾的替代方案:TAIDE 及其他

作为回应,台湾开发的 LLM,如 TAME,已经成为 DeepSeek 在汉文化圈内的替代方案。可信赖的 AI 对话引擎 (TAIDE) 由国家应用研究所在 2023 年 6 月推出,旨在开发一种符合台湾社会、文化和语言规范的模型。

虽然 TAIDE 的工作似乎已经停滞,但它为 Project TAME 提供了一个重要的基准。TAME 由台湾大学机器智能与理解实验室 (MiuLab) 开发,资金来自各个组织,在 5000 亿个 token 上进行了训练。它在 39 项评估中胜过了竞争对手,包括 GPT-4o,在大学入学考试、律师资格考试和传统中医考试中获得了更高的分数。

TAME 的目标之一是促进当地文化。解锁本地语言能力是一个重要的步骤。Kuo 提到了一种基于 Whisper 的台湾语音 LLM 的开发,该 LLM 在理解口头台湾语方面取得了积极成果。目前正在努力开发客家语识别。

这些努力受到了这些语言流行的地区机构的欢迎。也有人努力训练该模型进行土著语言识别,但有限的数据仍然是一个障碍。训练 AI 学习一门新语言需要大量的语音录音与文本配对。

访问政府档案中的历史数据提供了另一个机会。但是,某些数据受版权保护。通用人工智能的出现为复兴濒危和已灭绝的语言提供了潜力。

对人工智能主权的追求

语言和文化的交汇强调了人工智能主权作为加强台湾认同、传播台湾叙事和保护其信息环境的一种手段的重要性。

行业顾问兼市场情报与咨询研究所 (MIC) 主管 Julian Chu 强调了 LLM 模型和训练数据中存在偏见的可能性。他指出,即使在使用繁体字时,LLM 的输出也可能反映中华人民共和国的风格,而未能捕捉台湾的文化。目标是让台湾公司使用台湾语言或数据来训练 LLM 并建立 AI 主权。

Chu 提到 Formosa Foundation Model (FFM-Llama2) 是另一个有希望的台湾 LLM。它于 2023 年 9 月由台湾网络服务公司发布,旨在实现 AI 的民主化。富士康也在 3 月份推出了其 LLM FoxBrain。然而,一些评论员仍然对大公司进军 LLM 持怀疑态度。

开发 TAME 的 MiuLab 团队成员 Lin Yen-ting 强调需要解决台湾信息环境中的差距。他指出,DeepSeek-R1 和其他中国 LLM 呈现了台湾的扭曲观点。美国开发的模型有时也会歪曲台湾。开源模型可能不会优先考虑台湾,并且训练数据主要由中国主导。

因此,选择性地纳入台湾内容并将其重新训练到模型中非常重要。这种积极主动的方法确保了台湾独特的文化和语言景观在数字领域得到准确的代表,从而培养了民族认同感,并在全球 AI 发展中保护其独特的遗产。这种对保护台湾认同的奉献精神确保了这个岛国的独特文化和价值观不会被主流叙事所掩盖。

这种努力中固有的挑战是巨大的。构建一个真正具有代表性的 AI 模型需要大量资源的投入,包括访问大量本地化内容数据集和自然语言处理方面的专业知识。此外,不断需要对抗虚假信息和有偏见的信息,因此需要不断改进和调整。

尽管存在这些挑战,台湾对 AI 主权的承诺仍然坚定不移。TAME 和其他本地化 LLM 的开发代表着朝着确保人工智能的未来反映该岛屿独特的文化认同、民主价值观以及对维护其在世界上的独特地位的坚定承诺迈出的关键一步。通过优先考虑 AI 主权,台湾不仅在捍卫其文化遗产,而且还将其自身定位为全球 AI 格局中的关键参与者,表明技术进步可以与保护文化认同和民主原则相一致。

继续前行

通往完全 AI 主权的道路仍在继续。进一步的研究、开发和合作对于克服挑战并确保这些举措的长期成功至关重要。通过继续优先考虑 AI 主权,台湾可以创建一个真正反映其独特文化认同和民主价值观的数字景观,为其他努力在日益互联互通的世界中保持其独特地位的国家树立榜样。