炒作还是突破?中国初创公司发布'全球首个'全自主AI Agent Manus

AI 交互的新方法

中国开发团队“蝴蝶效应”(The Butterfly Effect) 最近推出了 Manus,并宣称其为全球首个完全自主的人工智能体 (AI agent)。这一新创造与传统的 AI 聊天机器人(如 ChatGPT、Google 的 Gemini 或 xAI 的 Grok)截然不同,后者都依赖于人类输入。相反,Manus 具有独立做出决策和执行任务的能力,无需持续的人工监督。

Manus 上周进入了早期访问阶段,采用仅限邀请的系统。尽管可用性有限,但它已经引起了极大的轰动,人们将其与中国的另一款著名 AI DeepSeek 的发布相提并论。这种兴奋是由几个因素推动的:

  • 行业领导者的认可: Hugging Face 的产品负责人称赞 Manus 是“我尝试过的最令人印象深刻的 AI 工具”。
  • 专家认可: AI 政策研究员 Dean Ball 将其描述为“使用 AI 的最复杂的计算机”。
  • 社区快速增长: Manus 官方 Discord 服务器在几天内迅速积累了超过 138,000 名成员。
  • 高需求: 据报道,该平台的邀请在中国市场闲鱼上以数千美元的价格出售。

这些反应凸显了人们对 Manus 的期待及其颠覆当前 AI 格局的潜力。Manus 的核心区别在于其运作模式。传统的 AI 以请求-响应为基础运行,需要用户提供特定的提示,然后等待生成的响应。然而,Manus 的运作方式不同。它旨在处理后台的复杂任务,仅在完成分配的工作后才通知用户。

实际应用和能力

为了说明其功能,请考虑用户让 Manus 寻找公寓的场景。与传统的搜索方法甚至现有的 AI 助手不同,Manus 可以进行全面的分析。这可能包括:

  1. 房地产市场分析: 评估所需区域的当前趋势、价格和可用性。
  2. 犯罪率评估: 调查不同社区的安全保障。
  3. 气候条件评估: 考虑天气模式和环境因素。
  4. 财务可行性: 根据用户的财务状况确定负担能力。
  5. 个性化推荐: 根据用户的偏好和优先级提供量身定制的建议。

这种自主分析和决策水平使 Manus 脱颖而出。它展示了向更主动、更少被动的 AI 模式的转变。

基准测试和性能

根据 Manus 的开发者之一 Yizhao “Pika” Ji 的说法,该 AI 在 GAIA 基准测试中优于 OpenAI 的 Deep Research 和 Operator。该基准测试专门用于评估 AI 与浏览器交互、利用软件和执行复杂任务的能力。Ji 强调 Manus“不仅仅是另一个聊天机器人”。他将其定位为“一个完全自主的代理,弥合了概念和执行之间的差距”,表明人类和机器协作方式的重大转变。他进一步设想 Manus 是“人机协作的下一个范式”。

早期测试者反馈和挑战

尽管有大量的炒作和雄心勃勃的声明,但早期测试者报告了一些重大问题。初创公司 Pleias 的联合创始人 Oleksandr Doria 指出,在测试期间,Manus 遇到了错误并经历了无限的重启循环。这些报告表明,该系统虽然很有前景,但尚未完全稳定或可靠。

此外,X(以前的 Twitter)上的许多用户指出 Manus 存在事实错误。人们还对其正确引用来源的能力表示担忧,用户注意到存在遗漏明显信息的情况。这引发了人们对 Manus 提供的信息的准确性和可信度的质疑。

解决问题

Manus 的一位代表在给 TechCrunch 的评论中承认了这些批评。他们说:

“作为一个小团队,我们的重点是不断改进 Manus,并制造出真正帮助用户解决问题的 AI 代理。当前封闭 Beta 测试的主要目标是对系统的各个部分进行压力测试并识别问题。我们非常感谢大家分享的宝贵见解。”

这种回应表明他们意识到了现有问题并承诺解决这些问题。开发人员还表示,他们打算扩大计算能力并解决已发现的问题。

一个有前途但不完善的产品

然而,必须认识到,在开发的早期阶段,Manus 似乎更像是一个实验,而不是一个完全完善的技术产品。虽然改变游戏规则的 AI 的潜力显而易见,但目前的现实表明,Manus 更准确地描述为概念验证,而不是一个完全可以广泛采用的功能性 AI 代理。报告的缺陷和不一致之处凸显了进一步开发和完善的必要性,然后 Manus 才能真正实现其雄心勃勃的目标。从有前途的原型到可靠且强大的 AI 代理的旅程通常是漫长而复杂的,而 Manus 似乎正处于该旅程的起点。未来几个月和几年对于确定它是否能够克服挑战并发挥其潜力至关重要。
代理设计的创新使其能够自主工作,这与传统的交互模型明显不同。Manus 不仅仅是响应提示,而是采取主动,分析情况、制定计划并执行它们,而无需持续的人工指导。

围绕 Manus 的热情不仅仅基于理论能力。AI 社区知名人士的反应及其用户群的快速增长为其感知潜力提供了切实的证据。该平台的邀请在二级市场上以高价出售的事实进一步凸显了人们的兴趣和期待程度。

然而,早期测试者的报告引入了一个重要的谨慎因素。技术困难、错误和不准确的经历不容忽视。这些问题凸显了开发如此先进的 AI 系统的内在挑战,并提醒人们,创建真正自主和可靠的 AI 代理的道路充满障碍。

开发人员对批评的回应令人鼓舞。他们承认问题并承诺改进,这表明他们愿意从反馈中学习并改进他们的创造。在封闭 Beta 测试阶段强调压力测试和识别问题是软件开发中的标准做法,并表明了一种解决缺点的系统方法。

最终的问题仍然是:Manus 能否克服这些最初的障碍并兑现其承诺?答案在于系统的未来发展和完善。Manus 目前的状态凸显了 AI 领域雄心与实用性之间的内在张力。虽然完全自主的 AI 代理的愿景引人注目,但创建这样一个系统的现实是复杂而苛刻的。Manus 是 AI 持续发展中的一个有价值的案例研究,展示了突破可能性的潜力和挑战。该项目的未来轨迹将受到 AI 社区的密切关注,并且无疑将为自主 AI 系统的开发提供宝贵的见解。当前的局限性不一定会否定长期潜力,但它们确实强调了持续进行严格测试、开发和完善的必要性。