完整复盘:Manus 是怎么诞生的?

2025-03-12 18:04:47

作者:宛辰

 

去年获得最多精神养分的创业故事,来自 Dify 创始人张路宇。

第一次见到他是在 2023 年「西溪论道」活动上,现场一众星光熠熠的名字中,张路宇三个字并不起眼。2024 年再次见到,Dify 已经是另一个故事了——一位没有光鲜背景的创业者,愣是在所有人都问商业模式的质疑声中,做出了全球最成功的 AI 开源产品之一。

一年的时间里在这家公司上发生的,比如意外在「因循守旧、易守难攻」的日本市场大受欢迎等故事,让我进一步理解「创业」。多的是意外,更需要运气,最终是要有本事在持续变化与事与愿违中摸出一条道路。

现在,相似的故事发生在另一位备受关注的创业者——Manus.im 肖弘和他的团队身上。

4 个月前,肖弘提过一个困惑,「团队擅长从 0 到 1,抓机会的能力很强,一旦开始 1 到 N,状态就没有那么好」。

在他过往的经历中,创业项目大都获得了相对稳定、可观的营收,上一家公司也被成功收购。2023 年,他的新公司「蝴蝶效应」更是以一款浏览器插件 Monica.im,在百模大战的 AI 叙事中错位竞争,成为增长最快、产品体验极佳的 AI 应用之一。看上去,他是一路很顺的创业者。做到这些事情,也才 32 岁。

但实际上,他并没有太多爽感。在肖弘看来,所谓「连续退出创业者」、所谓不断从 0 到 1 的爽感,像是围城——从 0 到 1 抓机会的能力很强、很爽,但是反过来,也担心会不会又需要再来一次。

2024 年,行业人士认为,像 Monica.im 这样带有记忆功能的 AI 助手,会面临来自比如豆包这样的强劲对手的压力,做起来并不会像 2023 年那样容易。Monica.im 有一个很好的从 0 到 1,但未必能冲击 1 到 N。

而他之所以会困惑,也是因为「团队接下来真的要做更难的事情、天花板更高的事情」,探索能够跨越 1 到 N 的事情。

更早之前,很多关注 Monica.im 的声音都假定这件「更难、天花板更高的事」是指传了很久、但团队迟迟未发布的 AI 浏览器。

现在看,确实,猜错了。

这段更难的探索其实是:放弃已经达到发布状态的AI浏览器、寻找下一个「ChatGPT 时刻」的 AI 产品、找到了通用型 agent 这个目标、做出了最新发布的 Manus.im。

Manus 是什么程度的创新、未来能做到什么水平,现在已经是一聊就炸了的话题。但值得看的,依旧是在「事与愿违」中找到的方向和找到方向的过程。Manus.im 未必就能让这支团队做成 1 到 N 的事情,甚至未必会复刻 Monica.im 的势头,但就像这家公司的名字——「蝴蝶效应」,许多小的动作和决定无意间对未来竟有深远的影响,「Connect the Dots」,明天的路会藏在今天的经历里。#p#分页标题#e#

01 Manus 的独特产品体验,源自做「AI 浏览器」的教训

去年中下旬以来,「蝴蝶效应」团队做 AI 浏览器成为行业「半公开」的秘密。正式对外亮相的产品,是引发失控般关注度的 Manus。

如果你亲自上手体验过 Manus,或者看过演示视频,你会感觉到它和聊天机器人或一些类 agent 应用相比,有一个明显的不同:Manus 可以异步、并行执行任务。

当你打开比如豆包、Kimi 或者类 Computer Use 等应用,向它发一个问题,你要等它回复完。否则在它回复或者做任务的过程中跟它说话,上一段回复/任务就中断了,你和它只能是 A-B-A-B 接力式的对话。

但是,在 Manus.im 里,尽管看着还是聊天机器人的产品形态,你却可以提出比如 20 个问题让它同步执行任务。一旁的你可以在电脑上做其他任何事情,看视频、写文档、打游戏等等,都不耽误它工作。一旦这些任务有完成的或者执行过程遇到问题,Manus 可以通知你。如果在执行任务中途,你看到它的思考出现了偏差,也可以随时在对话框补充提示词,它会带着新的上下文接着思考和执行任务。

体验是异步的、可以并行的,确实像有了一支可以帮你干活的真人实习生团队。

事实上,Manus 对异步体验的产品架构设计,源自团队在上一个未公开的产品——AI 浏览器中学到的一课。同时这也是团队投入了很大精力、但在去年 10 月决定终止做浏览器的原因。

The Browser Company 于 2024 年 10 月 25 日宣布停止对 Arc 浏览器的新功能开发,决定将资源转移到一款新浏览器 Dia 上,旨在打造一个更简洁、更易用的 AI 浏览器。|来源:Arc 官网

「在 AI 浏览器里,AI 在不断打断用户。」因为它是为单用户设计的场景,AI 用了,你就用不了了,当 AI 开始工作,你只能看着 AI 工作,很难上手。看着 AI 抢走了你的鼠标、电脑,你不仅不敢抢过来,而且还怕一不小心碰到键盘、鼠标导致它的整个流程崩掉需要再来一次。

这让团队做出两个判断:

  1. 直接用电脑去做 Computer Use,短时间内不太可行。

  2. AI应该用浏览器,但不是在你的浏览器里用,它应该有自己的浏览器,这个浏览器最好在云端,最后把结果反馈给你。

在和腾讯科技张小珺的采访对话中,肖弘提到团队在总结从 Jasper 到 ChatGPT 到 Monica 到 Cursor 到 Devin 的产品形态时,发现「人类程序员」Devin 就很符合这个异步体验的架构。

它不像用 Windsurf 时,有时要让你确认你的电脑要不要装这个库;或者它执行一个命令行操作,让你填 yes or no,因为它可能真会把你的电脑搞坏,或者是某个东西冲突——它让你填「yes」才能到执行下一步,但要甩锅。#p#分页标题#e#

所以在 Manus 团队看来,「Chatbot 应该在云上有个电脑,把它写的代码、要通过浏览器查的东西都在那台电脑上执行。因为是虚拟服务器,坏了无所谓,可以再来一台。它甚至可以在当前任务执行完之后释放掉那个服务器。」

值得注意的是,相比 Devin 选择了垂直领域、硬核的工程师,Manus 团队则选择了通用型、消费级的 AI 助手,有 Web,也会有 App。它是一个可以根据指令,调用工具、完成与工作与生活中的各类任务的一款通用型 AI 助手,未来也会以一个消费级可负担得起的价格交付任务结果。

02 Less Structure,More Intelligence

有了明确的思路和目标,下一步就是实现这个想法。Manus 到底是怎么做到的?

在其产品合伙人张涛看来,这需要给大模型配一台电脑,同时也给它配系统权限(接入代码仓库、专业数据查询网站等私有 API),并给予一定的培训。

这样一来,AI 可以自己用这台电脑打开浏览器,做动作去调度工具,再根据工具产生的反馈观察它的动作对真实世界造成的影响,再思考下一步,再做动作,再观察……这是 AI 在探索和调研中完成任务的过程。期间,Manus 也会在你的「调教」下越来越懂你的要求,未来即便你没有清晰定义需求,它也可以根据一个个任务中沉淀下来的知识「揣摩圣意」。

华为天才少年、Logenic AI 创始人李博杰认为 Manus 有一眼不同于其他产品的厉害之处:以极客程序员的方式解决问题。|图片来源:微信截图

Manus 产品的理念,在其团队的产品实践过程中逐渐明确:即 Less Structure、More Intelligence(更少的结构,更多的智能)。

这也是让 Manus 团队产生一个个「A-Ha,Wait!」(惊呆了)的时刻。举个例子,这是今年 1 月在团队发生的一幕:

当让 Manus 试着做 GAIA 测试集上的一个题目:「在一个类似国家地理风格的 Youtube 视频链接里,各种企鹅们来来回回走出又进来画面,让 Manus 数一帧画面里面同时出现最多种企鹅时,是有几种?」

然后,神奇的事情发生了。

Manus 先是打开这个视频链接,接着做的第一个动作是「Press K」,接着挨个截图记录哪一帧出现了哪种企鹅后,最后得出最多的一帧画面有 3 种企鹅。Manus 接下来要回去检查,它的下一个动作是「Press 3」……。最后检查后给出答案就是 3。

作为建造 Manus 背后的人,理应很了解它的能力边界,但对团队来说,真实情况是「总有惊喜发生」。意外的不仅是 Manus 做对了题目,而且,用了多年电脑和 Youtube 的人类朋友可能都不一定清楚,键盘上「K」「3」这些按键是什么?#p#分页标题#e#

看着有些恍惚的眼前一幕,团队跟着 Manus 做了一遍,键盘上的「K」是暂停键,可以让 Manus 暂停后挨个截图记录哪一帧出现了哪种企鹅后;「3」也是一个快捷键,从 0 到 9 分别代表进度条的 0% 到 90%,3 是进度条的 30%,可以精确定位到那个视频的那一秒钟,然后告诉人类这个画面有几种企鹅。

「这个过程跟传统意义上的 Chatbot 不一样。第一,它能看 YouTube 的画面,而不是看字幕。第二,我们甚至发现它在用 YouTube 快捷键,非常震惊,它回答出来了这个问题。」肖弘在此前腾讯科技的采访中也提到了这一幕。

突然就发现,Manus 不仅在编程上比人擅长,就连在人们天天使用的 Web、App 上,Manus 的知识量也远超想象,作为一个全知全能的 AI,它可以在任何工具里了解所有途径和手段,然后选择最优的方法。

这让团队再一次感受到了「Less Structure,More intelligence」——尽量减少人工对 AI 的限制,让 AI 通过自己的进化来发挥作用,而不是教它怎么做。

在 Manus 官网的最底部,悄悄呈现了 Manus 背后最重要的发现:「Less Structure,More intelligence」。|截图来源:Manus

这是「蝴蝶效应」联合创始人、首席科学家 Peak 在 Manus 产品上线当天,对 Manus 产品背后最重要的第一性原理——「Less Structure,More intelligence」作出的阐述和延展思考:

当你的数据足够优质、模型足够智能、架构足够灵活、工程足够扎实,那么 Computer Use、Deep Research、Coding Agent 等概念就从产品特性变为了自然涌现的能力。

回归第一性原理也让我们对产品形态有了全新的思考:· AI 浏览器不是在浏览器里加 AI,而是做给 AI 用的浏览器;

· AI 搜索不是从索引召回再总结,而是让 AI 以用户的权限去获取信息;
· 操作 GUI 不是抢夺用户设备的控制权,而是让 AI 有自己的虚拟机;
· 编写代码不是最终目的,而是解决各种问题的通用媒介;
· 生成网站的难点不是搭建框架,而是让内容言之有物;
· Attention 不是 all you need,解放用户的 attention 才能重新定义 DAU;
· ···

一次次「Less Structure,More intelligence」的发现与实践,Manus 产生了超出期待的效果,包括在 GAIA benchmark 中的 pass@1 分数超过了 OpenAI Deep Research 在 cons@64 下的成绩;同时,在内部测试中,Manus 也能够直接覆盖 Y Combinator W25 中 76% 的专用 agent 产品的场景。

03「Agent 可能是『对齐』的问题,而不是基础模型能力的问题」

现在,这些洞察的含金量正在更大的范围内引起讨论:#p#分页标题#e#

Hugging Face 创始人、CEO Clement Delangue 在 X 平台提出 Peak 的发现值得思考:智能体的能力不是卡在基座模型上,而是像 GPT-3 与 InstructGPT(ChatGPT)的差别一样,是对齐的问题。一些开源基础模型被简单训练成「无论问题的复杂程度如何,都能在一个轮次中回答完所有问题」,但这是聊天机器人场景中的要求,只需要对智能体的路径做一些后训练,就能立即带来巨大的不同。|截图来源:X

Manus 并未引入 MCP(《模型上下文协议》),而是让 AI 能够自己写代码去调用 API,来胜任各种各样长尾任务。|截图来源:X

在过去几天对 Manus 的讨论中,听到最多的一个问题是:「通用的AIAgent」行不行得通,边界在哪里?

在 Peak 看来,因为人与世界的交互其实非常标准,有眼睛、手、耳朵,如果把 action space(行动空间)定义好,就应该能把一个 agent 嵌入到一个本来由人来进行的一个环节中。

既然人能够使用各种工具来完成垂直领域很深的操作,那么如果一个 agent 本身具有足够好的知识,经过了适当的培训,又有很好的一个与世界交互的界面,它应该能像人一样工作,甚至可以让这个 agent 用某个 SaaS 产品。比如在 Manus.im 官网呈现的一个找房子的案例,其实就是让 AI 用一个房地产领域专用的 SaaS 产品工作。

他认为,应该定义清楚的是 agent 使用工具的边界,而不是它为哪群人服务。Manus 不是在模拟一个干具体事的一个人,不是比如按照研发、产品经理等划分的角色智能体;而是在模拟一个能干事的人、是模拟一个实习生是怎么工作的。

Manus 的多智能体系统(Multi-agent system),指的是规划(Planning)和执行(Execution)的分离。

在执行器(Executor)上,Manus 采用了在编程、以及长程规划和逐步解决问题的能力暂时领先的 Claude,也在用 Qwen 的一系列模型做后训练。

昨天,Manus 也与阿里通义千问达成战略合作,致力于在国产模型和算力平台上实现 Manus 的全部功能。|图片来源:Manus

在规划器(Planner)的部分,Manus 则做了很多工作。

由于目前市面上的货架 API 或者说模型,本质上是为聊天机器人的场景做对齐的,在训练的时候,无论用户提了一个多么复杂的问题,其训练的优化目标都是在一个回复里把用户的问题回答清楚,但这其实跟 agent 所需要的 planning 完全相反。#p#分页标题#e#

所以如果把市面上现有的模型直接用在 agent 场景,并没有「对齐」,这个模型永远会急功近利地在一轮对话内给出一个「稀里糊涂」的结果,就像很多 bullet point 总结。

「对齐方式会应该不一样,我们团队认为,需要不同数据去专门做对齐」,肖弘说。

去年 10 月,Peak 在知乎也记录过一个尝试复现 OpenAI o1 兴趣项目——Steiner 开源模型的进展与失败,实际上这个项目恰是在做 Manus 规划器部分 step by step planning(一步步规划)的预研。

总体上,Manus 是在模拟一个做事的人,这是团队对 Manus 作为通用型 AI 助手的产品定义。至于对其边界的思考,团队大概率也仍在探索中,需要更多的用户使用案例。

在 Manus 发布前放出的腾讯科技采访中,肖弘其实已经提到了对 Manus 通用性所在的初步思考,「一个很核心问题,或者说产品经理很重要的一个职责,是控制好用户预期。假定它能干世界上所有事,比如:我要怎么赚 100 万美金?这本来就不是应该由一个 Agent 去执行的事情。但如果我们能够给出更多更具体的例子,让大家的预期更合理,大家会用起来更顺畅。」

04「壳有壳的用」,最懂壳的团队

2 月 27 号凌晨,Manus 产品合伙人张涛和首席科学家季逸超(Peak)看到 Manus.im 打榜成绩出来的一瞬间,两位都落泪了。Manus 在 GAIA Benchmark 上的成绩超过 OpenAI 的 Deep Research,而且以 OpenAI 打榜时 1/10 左右的成本(2 美元/任务)做到了这个意外的成绩。

图片来源:Manus.im

几十人的团队,在 agent 达成全行业共识的竞争态势之时,成为第一波做出通用 agent 产品的团队之一,在产品工程、前端交互体验上,也有独特性。

做成事情的正反馈,胜过所有。对创业团队来说,没有比这更好的激励了。但在这之前,Manus 是怎么发生的?为什么是这个团队做出来的?

「今天的模型能力是能够完成一些复杂、多步才能搞定的任务。只是没有这样的产品,所以大家感受不到。」肖弘在此前腾讯科技的采访中提到的洞察可以用来理解这一问题。

同时,「能有机会尝试做 Agent 的产品的团队,并不多。因为,需要很多复合能力。他要搞过 Chatbot,搞过一点 AI 编程相关,搞过浏览器相关,因为要调用浏览器,而且对 LLM 的边界有不错感知——今天发展到什么水平,接下来会发展到什么样的水平。这些能力首先同时拥有的公司没那么多,而且有这些能力的公司,可能手头正在干一个很具体业务。我们恰好有些同学刚好有时间一起把这些事做出来。」

「恰好」。

#p#分页标题#e#
  • 在恰好的时间发现模型能力达到了可以做 agent 的程度,而不一定非要等一个像 Operator 一样的端到端大模型出来;

  • 也恰好发现了问题出在对齐上;

  • 也恰好做过聊天机器人延展出来的所有功能和 AI 浏览器;

  • 同时因为一直在所谓「套壳」做大模型应用产品所以对 LLM 有敏锐的感知;

「蝴蝶效应」团队达成了在当下做出这样一款通用 agent 的全部要素,所以现在有了完成度相对行业比较高的通用 agent。

在被问及要做 Manus 的决定性瞬间是什么时,Peak 还原了更多的细节,他表示,「创业其实没有『干净的』pivot」,这一切是连贯的、没有明确界限的。

「在做一款产品的时候,也会频繁关注外界的情况。」当时有几件事,一是做浏览器的时候,做过端侧模型,后来发现浏览器需要的场景非常非常宽,有不同的 feature,做的过程发现了基座模型变强的速度在加快,强到它跟 agent 之间的差距可能是一个 alignment 问题。尽管可能外界觉得好像大语言模型已经要逐渐收敛、撞墙。

同期,外界也在发生变化。去年年初 Cursor 开始火,然后是 Windsurf 和 Devin。这背后对应同一个脉络,agent 在编程领域火了,火的途径逐级递进。Cursor 是程序员的一个 copilot,提升编程效率,从 Windsurf 开始逐渐有些自动化的流程进来,让你在本机有更强的自动化能力,Devin 又达到了自动化新高度。

VC 的动向也是一致的,比如在去年和前年,YC 投了两类公司,一是云端的 Browser,比如 Browser base;第二类是类似于 e2b 这种轻量级的 AI Sandbox 虚拟机这些东西。

这说明「模型的基建在迅速成熟,Infra 的基建也在迅速成熟,再加上看见外界产品逐渐有更多的接受度,我们就觉得这是一个值得 all in 的方向。这是一个非常渐进的、平滑的过程,再加上做浏览器时的积累比如 chromium 那些基建可以无缝迁移过来,这也是为什么我们敢在云端搞浏览器」。

总结来说,在所谓「套壳」中对需求和模型的敏锐感知和经验积累,共同造就了 Manus。Monica 的很多场景需要做模型后训练,同时在AI浏览器的实践中强化了最重要的一课「less structure、more intelligence」,发现模型能力达到了做 agent,问题在于对齐。接着就是 Manus 飞速进化的 3 个月。

此前,「蝴蝶效应」团队一度被质疑「套壳」的价值何在,其在不自研大模型的情况下,通过整合现有大模型做出了 Monica,把聊天、搜索、阅读、写作、翻译等功能整合在一起,也通过一个个接 API 的方式集成了很多任务执行的场景,去年底用户量达千万。

现在,当豆包、夸克、元宝都大力推广各自的 Monica 类产品,当一个小团队又把现有技术利用起来做出第一个通用消费级 agent 时,是时候该重新理解「壳」了。#p#分页标题#e#

「套壳」以及「壳」究竟是什么?

在肖弘看来,所有突破都是模型带来的,基本上是模型先驱动、模型先行。壳是要把模型技术上的创新点,以一个用户可感知的方式展示出来,把模型创新能力封装成用户最能感知的样子。

从这个定义出发,DeepSeek App(包括思维链的展示)是 DeepSeek-R1 的壳,Cursor 是 Anthropic Sonnet 3.5 的壳,Perplexity 是 GPT-4 的壳,ChatGPT 是 InstructGPT 的壳。

随着模型能力在快速进化,「那个壳」也需要进化。每一代模型能力进化之后,甚至不一定是原厂,是一个第三方厂商把它的用户可感知价值给呈现出来。就像 Cursor 把 Claude 3.5 Sonnet 的用户可感知的价值。

3 月 5 日,在 Monica.im 发布两周年的时间点,为什么是这几十个人做出了超过各类 Deep Research 和 OpenAI Operator 的产品体验,答案就在对壳的理解和实践里。

如何做出新的、可以做 agent 的模型下最好的壳?

作为 Manus 的建造者,张涛认为,「从后台去看它整个的架构,我们看到每个地方都有大量的未完成的工作要去做,而那些地方每一个地方都是决胜的关键,都是让产品面都不一样的地方。」

在团队看来,最重要的优势是创新速度(pace of Innovation),无论是应用还是模型,现在都到了一个相对饱和的状态,真正到最后的核心能力唯有一个,就是跑得快,尽管「数据飞轮」「网络效应」这些东西还未被验证有没有。

「在一个全新的领域里,一切未定,一切未知,最重要的就是创新速度,拼的是在各种各样的方向上探索、试错,快速找到正确的路径。」而 Manus 团队从管理理念、组织架构、产业流程上,足够灵活。当新机会出现时,能在有限的资源里能够贯通整个公司从上下所有的资源,并且极高的决策速度,并适应犯错的反馈。

从左至右依次是「蝴蝶效应」首席科学家 Peak、CEO 肖弘、产品合伙人张涛|图片来源:网络

对于 Manus 的预期,肖弘认为「哪怕有窗口期你也值得试一试。」过去一年,他的思考也在发生剧烈变化,比如现在的他认为「当意识到自己提前的时候,更激进,超级激进。今天复盘,觉得 23 年 Monica 不够激进。」「如果你知道你在创新,你在领先,你就应该激进。」

不知道 Manus 能不能给肖弘和他的团队带来从 1 到 N 的体验与跨越,但这个最懂「壳」的团队相信心手合一地创造、也相信创造带来的蝴蝶效应——Manus 来源于 MIT 的一个 motto:Mens at manus,强调心手合一。不能光学,还得做,对现实世界产生 impact,才是真正的知识。

未来,随着 Manus 背后更多的沉淀开源出来,更广范围的蝴蝶效应也会进一步释放。 #p#分页标题#e#