未来回响:Meta AI 在 Windows 98 上苏醒

在一场引人入胜的技术时代碰撞中,一个叙事浮现出来,它将普及家用计算的萌芽时期与人工智能的前沿技术连接了起来。科技界的杰出人物、著名风险投资公司 Andreessen Horowitz 的联合创始人 Marc Andreessen 最近强调了一项非凡的壮举:Meta 的 Llama 人工智能模型的一个紧凑版本,成功在一台运行着古老的 Windows 98 操作系统、仅配备 128MB RAM 的计算机上运行。这一发现有力地提醒了我们技术的潜力,并对计算的历史轨迹提出了耐人寻味的问题。

在一台已有超过四分之一个世纪历史的硬件上运行一个复杂的人工智能(即便是一个缩减版),这个想法本身似乎就近乎矛盾。现代生成式 AI,即驱动像 ChatGPT 和 Microsoft 自家的 Copilot 这类工具的技术,通常与强大的处理器、巨大的内存分配以及通常基于云的基础设施相关联。Microsoft 自身已投入巨资整合 AI 能力,特别是其 Copilot 助手,将其深度融入其最新的操作系统 Windows 11 以及新一代被称为 Copilot+ PCs 的硬件中,这些硬件明确为 AI 工作负载而设计。这种对比使得 Windows 98 上的实验更加引人注目。它挑战了我们关于某些 AI 功能真正所需资源的假设,并让我们得以一窥另一条可能的技术时间线。

复活过去:实验背后的艰巨努力

虽然 Andreessen 让这一成就获得了更广泛的关注,但技术上的繁重工作似乎源于早期的努力,特别是 Exo Labs 团队的工作。他们将现代 AI 移植到如此老旧机器上的旅程远非一帆风顺;这是一场数字考古学和创造性解决问题的实践,凸显了今昔计算之间的巨大差异。

第一个障碍涉及基本的后勤和硬件兼容性。找到 Windows 98 时代能正常工作的硬件本身就足够具有挑战性。但除了启动机器,团队还需要外围设备。如今无处不在的现代 USB 接口,在 Windows 98 的鼎盛时期并非标准配置。这需要寻找使用旧式 PS/2 接口的兼容输入设备——许多年轻的技术爱好者可能从未见过的键盘和鼠标。

解决了物理设置问题后,下一个重大障碍是数据传输。如何将必要的 AI 模型文件和开发工具传输到一台缺乏现代连接选项(如高速 USB 端口或无缝网络集成)的机器上?这可能需要借助更旧、更慢的方法,也许是将文件刻录到 CD 上,或利用当时有限的网络协议,将简单的文件复制变成一个可能耗时良久的过程。

然而,核心的技术挑战在于为古老环境编译现代代码。这个基于 Meta 的 Llama 架构的 AI 模型,是使用当代编程实践和语言构建的。要让 Windows 98 理解并执行这些代码,需要一个编译器——一个将源代码翻译成机器语言的程序——这个编译器必须能在旧操作系统上运行,并且能处理 AI 代码的复杂性。

Exo Labs 最初求助于 Borland C++ 5.02,这本身就是一段软件历史——一个已有 26 年历史的集成开发环境 (IDE) 和编译器组合,可以在 Windows 98 上本地运行。这个选择代表了连接现代代码库和老旧操作系统之间的一座潜在桥梁。然而,这条路充满了复杂性。现代 C++ 标准和库的复杂性被证明难以与 Borland 编译器以及 Windows 98 环境的能力和限制相协调。兼容性问题不断涌现,迫使团队改变策略。

他们的解决方案涉及回归到 C 编程语言的一个更旧版本。虽然 C 是一种基础语言,也是 C++ 的前身,但使用更旧的 C 标准意味着牺牲 C++ 中一些更高级别的抽象和便利性。这需要一个更费力的编码过程,手动管理像函数和变量这样的元素,而 C++ 能更优雅地处理这些。进展不可避免地变慢了,需要对细节一丝不苟,以避免旧开发工具可能不易捕捉到的错误。

内存压缩:为有限资源驯服 Llama

也许最令人望而生畏的限制是极其有限的随机存取存储器 (RAM)。目标机器仅拥有 128MB 的 RAM。为了说明这一点,现代智能手机通常配备 8GB、12GB 甚至 16 千兆字节 的 RAM(1 千兆字节约等于 1000 兆字节)。为游戏或专业工作设计的高端 PC 通常配备 32GB、64GB 或更多内存。在如此微小的内存空间内运行像 AI 模型这样复杂的应用程序,就好比在扫帚间里进行精细的外科手术。

Meta 的 Llama 系列模型,虽然通常被认为比 OpenAI 的 GPT-4 等庞然大物更节省资源,但仍然包含参数量达数十亿的版本。例如,Llama 2 架构就包括了参数量高达 700 亿的模型。这些较大的模型需要强大的计算能力,并且至关重要的是,需要海量的内存来加载模型权重并管理处理信息和生成响应所涉及的计算。一个标准的 Llama 2 模型完全无法在 128MB 的限制下运行。

因此,实验的成功取决于使用或开发一个高度优化、显著缩小的 Llama 架构迭代版本。这个专门的版本必须经过特别定制,才能在严苛的硬件限制下运行。它可能涉及诸如模型量化(降低模型计算中使用的数字精度)和剪枝(移除神经网络中不太重要的部分)等技术,以大幅缩减其内存和计算足迹。Exo Labs 在 GitHub 上公开了他们改编的版本,展示了所需的具体修改。

这个在过时硬件上运行的微型 AI,不会拥有其运行在云端的大型同类所具备的广博知识或细致入微的对话能力。它的能力会受到限制。然而,它能够运行并执行基本的生成任务这一事实本身,就代表了一项重大的技术成就。它表明,大型语言模型的核心概念原则上可以被大幅度缩小,即使在这种极端情况下实用性有限。

Andreessen 的挑衅:一条失落的对话式计算时间线?

Marc Andreessen 抓住这次技术演示的机会,就计算的历史和潜在未来提出了一个更广泛、更具挑衅性的观点。他的反思不仅仅是关于在旧硬件上运行新软件的技术奇观;这是对人机交互可能存在的另一段历史的沉思。

他通过暗示 Llama 在一台 26 年前的 Dell PC 上的成功运行意味着一个跨越数十年的错失良机来阐述这一点。“所有那些旧 PC 实际上一直都可以是智能的,”Andreessen 断言。“我们本可以和我们的电脑对话 30 年了。”

这种说法邀请我们想象一个世界,在这个世界里,AI 发展的轨迹与个人计算的兴起以不同的方式交汇。PC 不再主要作为计算、文档创建以及最终访问互联网的工具,也许它们本可以更早地演变成对话伙伴。所描绘的景象是用户通过自然语言与他们的 Windows 95、98 甚至更早的机器互动,提问、获得帮助、进行对话,而这种方式直到现代数字助手和复杂的 LLMs 出现才成为主流现实。

当然,这是一个重大的反事实跳跃。我们今天所理解的生成式 AI,依赖于海量数据集、复杂的神经网络架构(如 Llama 和 GPT 模型底层的 Transformer 架构)以及用于训练的巨大计算能力,是一个相对较新的现象。20 世纪 80 年代和 90 年代的 AI 研究虽然雄心勃勃,但侧重于不同的范式,例如专家系统和符号推理。那个时代的硬件,虽然能够运行 Exo Labs 演示的精简版 Llama,但其能力比今天的系统要弱几个数量级,而且训练有能力的生成模型所需的海量数字数据集根本不存在可访问的形式。

Andreessen 承认了这一背景,提到了 20 世纪 80 年代 AI 热潮的乐观情绪:“80 年代很多聪明人认为这一切当时就会发生。”那个时代见证了对人工智能的大量投资和研究,但最终导致了“AI 寒冬”——当技术未能兑现其最雄心勃勃的承诺时,资金和兴趣减少了一段时期。计算能力、数据可用性和算法方法的局限性是深刻的。

因此,Andreessen 的评论或许最好被理解为一种思想实验,而不是字面意义上声称 1990 年代的硬件能够实现我们现在体验到的那种复杂的、类人 AI。它强调了如果研究重点、算法突破和硬件发展遵循了不同的路径,可能被释放的潜力。它强调了这样一个观点,即某种形式的智能交互的构建模块在技术上可能是可以实现的,即使结果会比今天的 AI 简单得多。

对比时代:从拨号上网的梦想

到 AI 注入的现实

Windows 98 实验与当前 AI 集成的景象形成了鲜明的对比。如今,AI 正迅速从以云为中心的服务转变为深度嵌入操作系统甚至硬件本身。

Microsoft 在 Copilot 和 Copilot+ PCs 方面的推动体现了这一趋势。Windows 11 提供了多个 Copilot 入口点,为从总结文档、起草电子邮件到生成图像和调整系统设置等任务提供 AI 辅助。新的 Copilot+ PC 规范强制要求包含神经处理单元 (NPU)——一种专门设计用于高效加速 AI 计算的芯片。这标志着一个根本性的转变,即 AI 处理正在成为个人计算机的核心功能,在本地处理而不是仅仅依赖远程服务器。

这种现代方法假定并利用了丰富的资源。Copilot+ PCs 要求至少 16GB RAM 和快速的固态存储,这些规格远远超过了 Windows 98 机器那微不足道的 128MB。所使用的 AI 模型,虽然为客户端执行进行了优化,但比实验中使用的微型 Llama 版本要复杂得多,能力也强得多。它们受益于数十年的算法改进、海量的训练数据集以及专门为其需求构建的硬件。

这种对比阐明了几个要点:

  1. 软件优化 vs. 臃肿: Exo Labs 的实验是极端优化的证明,将现代算法强行塞入一个高度受限的环境中。它含蓄地批评了现代软件倾向于假设硬件资源不断增加,有时导致效率低下或“臃肿”。
  2. 硬件的演进: 一台典型的 1998 年 PC 和一台 2024 年的 Copilot+ PC 之间在计算能力和内存上的巨大差异令人震惊,代表了多代摩尔定律 (Moore’s Law) 和架构创新。
  3. 数据的可及性: 现代 LLMs 的训练依赖于互联网规模的数据集,这在 Windows 98 时代是无法想象的。那时的数字宇宙实在太小且太分散了。
  4. 算法的突破: 像 2017 年 Transformer 模型这样的架构的发展是一个关键时刻,它使得当今生成式 AI 中所见的规模和性能成为可能。早期的 AI 方法存在根本性的局限。

尽管 Andreessen 梦想着 30 年前能与计算机对话,但现实是,实现今日 AI 体验所需的硬件能力、数据可用性和算法创新的融合,直到近得多的时候才发生。

这一切意味着什么?超越怀旧的反思

在 Windows 98 上成功部署 Llama 模型仅仅是一个巧妙的黑客行为,一个为技术爱好者准备的怀旧噱头吗?或者它持有更深层的意义?可以说它服务于几个目的:

  • 展示极端的可扩展性: 它证明了大型语言模型背后的基本原理可以被调整以在极其紧张的资源限制下运行。这对于在低功耗嵌入式系统、IoT 设备或世界各地仍在使用的旧硬件上部署 AI 具有潜在意义。
  • 凸显约束的力量: 在严格的限制下工作往往能激发创新和效率。Exo Labs 团队必须找到创造性的解决方案并进行无情的优化,这些技能即使在资源丰富的环境中也很有价值。
  • 挑战假设: 它促使人们反思,现代应用程序使用的所有计算能力和内存是否对其提供的价值来说都是绝对必要的。某些软件能否更精简、更高效?
  • 阐释技术路径的偶然性: 历史很少遵循直线。某种初级 AI 可能在旧硬件上实现这一事实,强调了不同的选择、研究方向甚至偶然的发现可能如何将我们引向不同的技术路径。

这个实验并没有改写历史,也不意味着 2024 年复杂的 AI 体验在 1998 年就能以某种方式实现。在使能技术——处理能力、内存、数据、算法——方面的差距仍然是巨大的。然而,它确实提供了一个引人入胜的数据点,一个工程创造力的证明,以及一个思考技术进步曲折道路的催化剂。它提醒我们,昨天的限制有时可以用今天的知识来克服,产生令人惊讶的结果,并促使我们重新思考现在和未来可能实现什么。旧机器中的幽灵低语的不仅是过去的样子,或许还有蕴藏在简洁和效率中尚未开发的潜力。