全球围绕人工智能的讨论似乎常常聚焦于一场无休止的军备竞赛——谁能构建出最大、最强的大型语言模型 (LLM)?近期的进展,例如中国 DeepSeek 等模型所展示的令人印象深刻的能力,无疑助长了这种说法。在全球和国内经济面临挑战的背景下,这样的技术飞跃为未来的潜力提供了一线诱人的希望,或许也能成为亟需的增长催化剂。然而,仅仅关注这些引人注目的 LLM,无异于只见树木不见森林。多年来,人工智能已经以不那么引人注目但影响深远的方式,深深地融入了我们数字生活的方方面面。
想想那些主导在线互动和商业的无处不在的平台。如果没有复杂的推荐算法不断定制内容推送,TikTok 或其中国对应产品抖音 (Douyin) 能否取得如此惊人的全球影响力?同样,无论是像 Amazon、Shein 和 Temu 这样的国际玩家,还是像淘宝 (Taobao) 和京东 (JD.com) 这样的国内巨头,其电子商务的成功远不止于高效的采购和物流。AI 扮演着无形之手,巧妙地引导着我们的选择。从我们考虑购买的书籍到我们追随的时尚潮流,我们的消费习惯越来越受到分析我们过往购买记录、浏览历史和点击模式的系统的塑造。早在对话式 AI 能够按需创作优雅诗歌之前,像 Amazon 和 Google 这样的公司就已经率先使用 AI 来理解和预测消费者行为,从根本上改变了市场格局。这种更安静、更普遍的 AI 形式几十年来一直在重塑商业和媒体消费,其运作往往在我们有意识的感知阈值之下。
大型语言模型的双刃剑
像 DeepSeek 这样强大的 LLM 的出现,无疑代表了一个重大的技术里程碑。它们生成类人文本、翻译语言甚至创作诗歌等创意内容的能力非同凡响。这些工具作为个人助理、研究助手和创意伙伴,蕴藏着巨大的潜力。想象一下,利用这样的模型起草邮件、总结冗长文档或进行头脑风暴——其提升个人生产力的潜力显而易见。
然而,这种能力也伴随着显著的警示,其根源在于这些模型运作的本质。LLM 建立在复杂的统计方法和庞大的神经网络之上,这些网络在海量数据集上进行训练。它们擅长识别模式和预测最可能的词语序列,但它们并不具备真正的理解或意识。这种统计基础导致了一个关键的脆弱性:幻觉 (hallucinations)。当面对其训练数据之外的主题或需要细致判断的查询时,LLM 可能会自信地生成听起来合理但完全错误或误导性的信息。
可以将 LLM 不视为绝无谬误的神谕,而或许是一位博览群书、口才出众但有时会虚构事实的专家。虽然 DeepSeek 可能会创作一首激动人心的十四行诗,但依赖它进行关键的法律解释、精确的医疗诊断或高风险的金融建议将是极不明智的。使其能够生成流畅文本的统计概率引擎,也使其在缺乏确切知识时倾向于编造“事实”。尽管更新的架构和推理模型(如 DeepSeek 的 R1 或 OpenAI 传闻中的 o1/o3)旨在缓解这个问题,但它们并未完全消除。一个万无一失、保证在任何情况下都准确的 LLM 仍然遥不可及。因此,虽然 LLM 可以成为个人的强大工具,但其使用必须辅以批判性评估,尤其是当基于其输出的决策具有重大影响时。它们增强了人类的能力;但并未在关键领域取代人类的判断。
企业与政府 AI 实施的导航
尽管 LLM 在处理高风险、开放式查询方面存在固有限制,但它们为企业和政府机构提供了巨大的价值主张,尤其是在受控环境中。它们的优势不在于取代决定性的决策,而在于简化流程和提取洞见。关键应用包括:
- 流程自动化: 处理日常任务,如数据录入、客户服务预筛选、文档摘要和报告生成。
- 工作流优化: 基于数据分析识别瓶颈、提出效率改进建议以及管理复杂的项目时间表。
- 数据分析: 处理海量数据集以揭示人类可能忽略的趋势、相关性和异常情况,辅助战略规划和资源分配。
对于政府和企业用途而言,数据安全和保密性是一个至关重要的方面。像 DeepSeek 这样的开源模型的可用性在此处提供了一个优势。这些模型可能可以托管在专用的、安全的政府或企业数字基础设施内。这种“本地部署 (on-premises)”或“私有云 (private cloud)”方法允许处理敏感或机密信息,而无需将其暴露给外部服务器或第三方提供商,从而降低了重大的隐私和安全风险。
然而,当考虑到面向公众的政府应用时,情况就大不相同了,因为所提供的信息必须具有权威性且绝对准确。想象一下,一位公民向一个由 LLM 驱动的政府门户网站查询有关社会福利资格、税收法规或紧急程序的信息。即使 AI 在 99% 的时间里生成完全正确的响应,剩下 1% 的误导性或不准确答案也可能产生严重后果,侵蚀公众信任、造成经济困难甚至危及安全。
这就需要实施强大的保障措施。潜在的解决方案包括:
- 查询过滤: 设计系统以识别超出预定义的安全、可验证答案范围的查询。
- 人工监督: 标记复杂、模糊或高风险的查询,交由人类专家审查和回应。
- 置信度评分: 对 AI 进行编程,使其能够表明对答案的确定性程度,提示用户对低置信度响应寻求验证。
- 答案验证: 在向公众展示之前,将 AI 生成的响应与已知准确信息的精选数据库进行交叉引用。
这些措施凸显了当前 LLM 技术固有的根本性张力:其令人印象深刻的生成能力与在关键情境下对准确性和可靠性的绝对要求之间的权衡。管理这种张力是在公共部门负责任地部署 AI 的关键。
迈向可信赖 AI:知识图谱方法
中国的策略似乎越来越侧重于通过将 AI 集成到特定的、受控的应用中来应对这种张力,同时积极寻求增强可靠性的方法。一个引人注目的例子是在大湾区城市珠海正在展开的智慧城市计划。该市政府最近对智谱 AI (Zhipu AI) 进行了一项重大的战略投资(约 5 亿元人民币或 6900 万美元),表明其致力于将先进 AI 嵌入城市基础设施。
珠海的雄心壮志超越了简单的自动化。其目标是全面、分层地实施 AI,旨在切实改善公共服务。这包括通过实时数据分析优化交通流量,整合不同政府部门间的分散数据流以实现更全面的决策,并最终为市民创造一个更高效、响应更迅速的城市环境。
这项工作的核心是智谱 AI 的 GLM-4 通用语言模型。虽然它精通处理中英文任务并具备多模态能力(处理文本以外的信息),但其关键区别在于其架构。智谱 AI 是清华大学著名的知识工程研究室 (Knowledge Engineering Group) 的衍生公司,它将结构化数据集和知识图谱融入其学习过程。与主要从大量非结构化文本(如网站和书籍)中学习的传统 LLM 不同,智谱 AI 明确利用了经过策划的高精度知识图谱——即事实、实体及其关系的结构化表示。
该公司声称这种方法显著降低了模型的幻觉率,据报道在最近的一次全球比较中达到了最低水平。通过将 AI 的统计推断建立在经过验证的结构化知识框架(正如“知识工程”的起源所暗示的那样)之上,智谱 AI 旨在构建一个更可靠的认知引擎。这代表着从纯粹的统计模型向整合事实基础的系统迈出的实际一步,从而增强了其在珠海智慧城市项目等特定应用中的可信赖性。
对神经符号整合的探索
智谱 AI 的例子暗示了人工智能演进中预期的一个更广泛、更根本的转变:统计神经网络与符号逻辑推理的整合。虽然当前的 LLM 主要代表了神经网络的胜利——擅长模式识别、处理感官数据和生成统计上可能的输出——但下一阶段可能涉及将这种“直觉”能力与传统符号 AI 所特有的结构化、基于规则的推理相结合。
这种神经符号整合 (neuro-symbolic integration) 常被描述为 AI 研究中的“圣杯”,正是因为它有望结合两者的优点:神经网络的学习和适应能力,以及符号系统的透明性、可验证性和显式推理能力。想象一个 AI,它不仅能识别数据中的模式,还能根据既定规则、法律或逻辑原理解释其推理过程。
实现无缝整合面临着众多复杂的挑战,涵盖理论框架、计算效率和实际实施。然而,构建强大的知识图谱 (knowledge graphs) 代表了一个切实的起点。这些事实和关系的结构化数据库提供了锚定神经网络推断所需的符号基础。
人们可以设想在中国进行一项大规模的、由国家支持的努力,或许类似于明朝 (Ming dynasty) 编纂百科全书式《永乐大典》(Yongle Dadian) 的宏伟工程。通过在精度要求极高的关键领域——如医学、法律、工程和材料科学——以数字方式编纂大量经过验证的信息,中国可以创建基础性的知识结构。将未来的 AI 模型锚定在这些经过编纂的、结构化的知识库中,将是使其更可靠、更少产生幻觉,并最终在关键应用中更值得信赖的重要一步,并可能在此过程中推动这些领域的前沿发展。
自动驾驶:中国的生态系统优势
或许最能体现中国专注于整合、可靠 AI 的领域是自动驾驶 (autonomous driving)。该应用与通用语言模型不同,因为安全不仅是可取的,而且是至关重要的。在复杂、不可预测的真实世界环境中操作车辆,需要的不仅仅是模式识别;它需要基于交通法规、物理约束、伦理考量以及对其他道路使用者行为的预测性推理,做出瞬间决策。
因此,自动驾驶系统需要一个真正的神经符号架构。
- 神经网络对于处理来自摄像头、激光雷达 (lidar) 和雷达的大量传感数据,识别行人、骑自行车者和其他车辆等物体,以及理解即时环境至关重要。
- 符号逻辑对于实施交通规则(红灯停、让行权)、遵守物理限制(制动距离、转弯半径)、在复杂场景中做出透明、可验证的决策,甚至可能处理伦理困境(例如不可避免的事故选择,尽管这仍然是一个极其复杂的领域)至关重要。
自动驾驶汽车必须有效地融合数据驱动的“直觉”与基于规则的推理,以一致且可预测的方式行动,确保在动态情况下的自适应安全。它不能承受在不那么关键的 AI 应用中可以接受的那种“幻觉”或概率性错误。
在此,中国拥有独特的有利因素组合,为自动驾驶的开发和部署创造了一个肥沃的生态系统,可以说超越了其他全球大国:
- 世界领先的电动汽车 (EV) 供应链: 中国在电动汽车及其零部件,特别是电池的生产方面占据主导地位,提供了强大的工业基础。
- 广泛的充电基础设施: 快速扩展的充电站网络缓解了里程焦虑,并支持了电动汽车的广泛普及。
- 先进的 5G 网络: 高带宽、低延迟的通信对于车联网 (V2X) 通信至关重要,可实现车辆与基础设施之间的协调。
- 智慧城市整合: 像珠海这样的举措表明,愿意将交通系统与更广泛的城市数据网络整合,优化交通流量并实现先进的自动驾驶功能。
- 广泛普及的网约车: 消费者对网约车应用的高度接受为机器人出租车 (robotaxi) 服务创造了一个现成的市场,为自动驾驶汽车的商业化提供了清晰的路径。
- 高电动汽车普及率: 与许多西方国家相比,中国消费者更愿意接受电动汽车,创造了一个庞大的国内市场。
- 支持性的监管环境: 虽然安全仍然是关键,但政府似乎支持自动驾驶技术的测试和部署,例如在武汉 (Wuhan) 等城市已经开展的机器人出租车运营就证明了这一点。
与其他地区形成对比。尽管 Tesla 做出了开创性的努力,但美国在发达国家中的整体电动汽车普及率明显落后,这一趋势可能因政策转变而加剧。欧洲拥有强劲的电动汽车普及率,但缺乏同样集中的、主导性的国内电动汽车制造商或专注于这种整合的全球领先 AI 巨头。
因此,中国的战略优势似乎不在于拥有单个最强大的 LLM,而更多地在于协调这个复杂的生态系统。从制造实力到数字基础设施和消费者接受度,各个要素正在逐步到位,有可能使自动驾驶汽车在本十年内从利基测试走向主流应用,甚至可能在今年就看到显著的起飞。随着这些车辆与不断发展的智慧城市基础设施无缝集成,其全部变革力量将被释放出来。
转移焦点:从计算能力到整合生态系统
尽管美国和其他参与者似乎常常陷入一场“算力竞赛”,专注于芯片霸权、庞大的服务器基础设施,以及通过不断增大的 LLM 实现基准领先地位,但中国似乎正在推行一种互补的、或许最终更具影响力的战略。该战略强调将 AI 整合到切实的、具有社会变革性的应用中,优先考虑可靠性和生态系统协同效应,尤其是在自动驾驶和智慧城市等领域。
这涉及到有意识地转向神经符号方法,针对那些纯粹的统计模型无法满足要求的特定高价值、安全关键领域。真正的竞争优势可能不在于任何单一的算法或模型,无论其能力或成本效益如何,而在于通过全面、整合的生态系统将 AI 融入物理和经济版图的能力。中国正在悄悄地朝着实用的、特定领域的神经符号整合迈进,目光超越了当前对 LLM 的迷恋,投向那些可能从根本上重塑城市生活和交通的应用。AI 在现实世界影响力的未来,可能更少地取决于聊天机器人的口才,而更多地取决于这些复杂的、嵌入 AI 的系统的可靠运行。