随着基于云的大型语言模型 (LLMs) 的迅速普及,一个日益增长的担忧也随之而来:数据隐私。用户一旦将信息输入到这些模型中,就放弃了对其信息的控制权,从而造成了重大的漏洞。
然而,一种潜在的转变即将到来。开源 LLM 的出现,特别是来自中国 AI 开发者的开源模型,再加上边缘计算的进步和日益严格的数据隐私法规,可能会重新定义 AI 格局。
开源模型革命:对现状的挑战
DeepSeek 在 1 月份推出开源 LLM,在全球 AI 社区引起了轰动。随后,Manus AI 和百度 (及其 ERNIE 模型) 等其他中国公司也发布了类似公告,这标志着 AI 开发领域将走向更大的可访问性和透明度。
“开源”模型的关键区别在于其公开可访问的参数。这使得开发人员能够深入研究模型的内部运作,对其进行定制,并在此基础上更有效地进行构建,从而提供封闭模型所不具备的控制级别。
最初,中国开源模型的兴起引发了对用户数据被发送到中国服务器的担忧。然而,现实情况是,大多数云服务 LLM 提供商,无论其地理来源如何,通常都会忽视用户隐私问题。考虑到 AI 聊天机器人的性质,这一点尤其令人担忧。
与从浏览历史或社交媒体活动中推断我们兴趣的传统应用程序不同,AI 聊天机器人直接、明确地披露个人信息。用户愿意分享他们永远不会委托给传统应用的详细信息,这使得对强大的隐私保护措施的需求变得更加重要。不幸的是,AI 革命似乎正在重复熟悉的模式,即快速创新和市场主导地位掩盖了基本的隐私考虑因素。
增强 AI 隐私的三个支柱
尽管存在这些担忧,但我们有理由保持乐观。三个关键要素正在融合,为用户提供对其数据的更大控制权:
- 有竞争力的开源模型的兴起,尤其来自中国
- 边缘计算能力日益增强和可访问性
- 一波积极的监管执法浪潮
开源模型:赋予用户选择权
OpenAI、Anthropic 和 Google 等公司在很大程度上对其模型权重保密。这严重限制了边缘计算的部署选项,并限制了希望在本地维护对其数据控制权的用户。来自中国来源的具有可比功能的开源模型的可用性增加了西方公司采用类似方法的压力,最终使用户能够更自由地选择具有隐私保护功能的 LLM。
边缘计算:让 AI 更接近用户
边缘计算具有在设备本地运行 AI 模型的能力,为数据隐私问题提供了一种实用的解决方案。智能手机和其他低计算设备能力的不断增强使得可以直接在用户设备上部署更小、更高效的模型,从而消除了将数据传输到云的需要。
随着 AI 模型变得更加优化和高效,并且假设由于可用训练数据有限,模型大小的增长趋于平稳,本地、高性能模型可能会成为常态。这种范式转变将使用户能够更好地控制其个人数据。
监管审查:加强问责制
虽然技术解决方案带来了希望,但监管监督在确保用户隐私方面发挥着至关重要的作用。世界各地的监管机构都在积极执行与 AI 模型处理个人数据相关的现有法规,发布指南,并实施新规则以应对 AI 技术带来的独特挑战。
例如,意大利的数据保护机构已经对 OpenAI 处以巨额罚款,原因是其侵犯了隐私,并封锁了 DeepSeek。爱尔兰监管机构也在审查 Google 的 AI 实践。此外,欧盟的欧洲数据保护委员会 (EDPB) 发布了关于在 AI 模型中使用个人数据的意见,欧盟 AI 法案的要素正在逐步实施。
这种监管重点已延伸到欧洲以外。澳大利亚和加拿大发布了 AI 模型训练指南。巴西去年采取行动,迫使 Meta 修改其 LLM 训练实践。总的来说,这些监管努力凸显了人们日益认识到有必要在 AI 时代保护用户隐私。
网络安全专业人员的实际步骤
网络安全专业人员可以通过以下步骤积极解决其组织内部和客户的 AI 隐私问题:
- 拥抱开源模型: 开源模型可以更好地控制数据处理,并消除通常与封闭模型相关的不可预测的行为变化。通过过渡到开源解决方案,组织可以提高数据隐私并提高其 AI 应用程序的可靠性。
- 为合规性挑战做好准备: 如果过渡到开源模型在短期内不可行,组织必须准备好应对与封闭 AI 系统相关的潜在合规性挑战和法律风险。封闭 AI 公司处理数据的方式缺乏透明度,使得难以确保完全遵守隐私法规,从而增加了法律诉讼的风险。
- 要求软件供应商提供透明度: 评估组织所依赖的软件解决方案中的 AI 和机器学习 (ML) 组件至关重要。详细询问所使用的模型、许可条款、客户数据是否用于训练他人可以访问的模型,以及供应商计划如何遵守特定的 AI 法规 (例如欧盟 AI 法案)。通过要求透明度,组织可以做出明智的决策并降低潜在的隐私风险。
总之,虽然对外国实体可能滥用用户数据的担忧是合理的,但中国开源生成 AI 模型、边缘计算的进步和坚定的监管执法相结合,有可能彻底改变 AI 隐私。这种融合能够使用户在降低隐私风险的情况下利用 AI 的强大功能。