访谈 MuleRun 陈宇森:Claude Code 带来 Agent 创作新范式、未来的软件是日抛式的

晚点LatePost
03-26 15:36

软件应用也可以 “3D 打印” 了。

访谈丨程曼祺

整理丨实**生裴雨桐

当 agent 构造变得越来越简单,会发生什么?agent 交易平台 MuleRun 创始人陈宇森分享了他的观察和创业实践。

陈宇森是一名少年成名的连续创业者,22 岁从浙大毕业后创办网络安全公司长亭科技,5 年后卖给阿里云,现在他带着对 AI agent 的理解重新出发。

MuleRun 基于这样一个核心假设,当 Vibe Coding 大幅降低了应用开发门槛,Claude Code 带来 agent 创作新方法,大量非技术背景的人也能把自己的工作知识和流程封装成一个个勤恳的 AI 骡子,实现个人工作的自动化。

这期内容包含两次聊天,分别发生在 25 年 12 月和 26 年 1 月上旬,不到 1 个月里,随着 MuleRun Agent Builder 开始内测,陈宇森和 MuleRun 的思路已发生了一些变化。

他认为,未来的 market place 不再会是过去我们熟悉的货架形态,而是在对话中触发交易。MuleRun 的调整本身,也是当前 AI 应用瞬息万变的一个缩影。

这期节目的后半段,我们也聊了一个创业 10 年,成立过 4 家公司,经历过成败起伏的创业者,如何以「用心」避免陷入平庸和对抗自我怀疑。

以下是播客的文字整理,有部分精简。

寻找方向、Agent 交易平台的机会与难点

晚点:你的这次创业是什么时候开始的?为什么会想到做 Agent market place?

陈宇森: 我们是在 2024 年年底开始构思这件事的。当时我们看到一个明确的信号:Cursor 这类产品已经找到了 PMF(产品市场契合点)。这表明,随着大语言模型能力的提升,它开始在特定应用领域(如编程)产生真正的生产力价值。

我们认为编程是一项非常通用的能力,它是让 AI 能做更多事情的桥梁——既然人类通过编程能实现众多功能,那么如果 AI 能替代或辅助人类编程,很多事情就可以直接由 AI 完成。

我们在 4 月份上线了一个 Vibe Coding 产品,当时也规划了一些差异化的功能,比如让模型更精通少数几个框架,或在运行时调试方面做得更好。但后来发现,在 AI 应用领域,如果做一个别人已经做了且团队同样优秀的产品,很难获得流量和用户。内测后发现,用同样的 prompt 在我们产品和头部产品上跑,结果差不多,因为大家都依赖于 Claude 的 API 能力。

这一年下来,竞争格局并没有发生明显变化,没有哪个产品通过独特设计显著超越对手。不过,近期 Anthropic 自己做的 Claude Code 以及 OpenAI 的 CodeX 进展非常迅猛,用户数提升很快。Claude Code 确实让我感觉到了更大的变化,因为它启发了一种全新的 agent 创作范式。

晚点:具体是怎样的创作范式?

陈宇森: 简单来说,目前最强的 General Agent 就是 Claude Code。早期大家做 agent,往往是通过外挂方式来实现 SOP 与大模型的结合,比如在 LangGraph 里写一段代码,或者纯代码化的方式,而不是仅仅在模型上加 prompt。

但随着大模型能力进步,我们发现只要确保复杂任务不超出上下文窗口(避免产生大量幻觉),直接给模型足够复杂的提示词,它就能处理足够复杂的事情。这虽然需要做一些 Context Engineering,但本质上已经是 “怎么用好大模型” 的问题了。

我们的底层假设是:当大模型具备了编程能力后,理论上它可以在一到两年内,完成人类在电脑上能做的所有事情。

基于这个认知,我们判断目前 AI 做不好的,主要是那些沉淀在线下或人类大脑中的经验与知识。如果能将个人的线下知识、经验与大模型的理解和判断能力结合,就能把个人的能力 80% 到 90% 复制到一个 agent 中。面临同类问题的人,只需花点小钱使用这个 Agent,就能免去从头操作的繁琐,实现 “花小钱办大事”。这样创作者能赚钱,使用者能提效,从而形成一个很好的交易生态。

晚点:基于 Claude Code 是目前最好的通用智能体这一前提,未来很多需求可以直接通过 agent 实现,市场更需要的是一个交易平台,而不是去重复做 Claude Code 已经做得很好的事情,可以这样理解吗?

陈宇森: 是的,这也是我们思路的演进过程。最初我们觉得市场缺乏一个好的 agent 交易平台,所以想做一个框架中立的部署与交易平台——无论你在哪里开发,都可以在这里部署和赚钱,因为赚钱是推动生产力发展的基础。

但做到现在我们发现,要让行业专家去创作 agent,哪怕是低代码都显得太复杂。能用低代码的人,本质上已经具备了 coding 的能力。要让普通人真正能够 coding ,门槛必须降到只需使用自然语言,不需要理解参数、拖拉拽、循环或条件语句。最自然的方式就是直接描述需求和工作过程。

比如,HR 清楚每天的招聘流程,客服知道如何调取知识库处理客诉和退换货。只要他们把这些日常工作流程描述得足够清晰,AI 就能高准确率地完成。如果有成百上千的人每天都要做同样的任务,他们就可以花钱让比人类更高效的 agent 去做,创作者也能因此获益。

晚点:既然 MuleRun 是一个双边交易平台,一个 market place,平台目前的供需双方是怎样的吗?在供给端,一种是完全没有开发经验的人,通过你们提供的环境直接用自然语言生成业务流程;另一种是传统开发者把做好的 agent 上传到平台。这两种供给现在都有吗?哪种是更重要的呢?

陈宇森: 主要是第二种。目前我们平台上的供给主要还是传统的应用。但真正让我们觉得这个商业模式成立的前提,其实是 Vibe Coding 的普及。过去开发软件成本很高,很难为几十个人甚至一个人的小众需求去定制软件;但现在有了代码能力强的大模型,我们完全可以为极少数人的需求开发应用。

因为现在的供给还不够丰富,无论是用户的创作过程还是我们的上架流程都有些复杂。我们的核心假设是:未来的应用生态会无比丰富且极度长尾。可能我今天有个奇怪的需求,只要另外十个人里有一个人把应用做出来了,我就可以直接去用。当这种长尾需求被大量满足时,产品才算真正达到了 PMF。

目前我们虽然上线了交易功能,用户增长也做得不错,积累了挺多注册用户,但遗憾的是还没有看到大规模的 PMF 发生。反思下来,核心问题在于供给丰富度不够、上架门槛太高。目前平台支持 n8n 工作流或 LangGraph 制作的复杂 agent 上线,但这仍依赖一定的人工审核,且创作门槛依然存在。

所以绕了一圈回到刚才的话题:Claude Code 是极强的通用智能体。对于大多数开发者或普通人来说,只要能向它描述清楚需求,再配合我们提供的一个足够丰富的 skills market,就能大幅降低开发门槛。官方主要负责提供清晰的技能模块,比如操作 Excel、控制浏览器或调用特定软件,普通人只需描述需求并选择对应技能,Claude Code 就能将这些打包成一个容器或虚拟机,稳定交付任务。整个创作过程的核心就是极大地降低开发门槛。

晚点:这听起来有点像我们在电脑上做的一些自动化操作?比如手机上可以用苹果的 “快捷指令” 做一个截图自动化流程,截图后自动按比例裁剪并上传到云盘,电脑上就能直接看。你们在电脑上实现的是类似的功能吗?

陈宇森: 非常同意,这是个好例子。我们团队也有同事把内部平台的登录凭证放在手机上,通过快捷指令调用 agent 帮他处理事务。但这还比较简单。

对于稍微复杂的场景,则需要加入个人判断。过去,软件很难通过规则代码去实现人的业务判断;但现在,只要教会大模型怎么去判断,它就能把这个步骤做掉。比如供应链员工发现缺货需要补货,过去是基于个人判断去操作 ERP 系统,现在大模型可以作为中间的 “胶水”,替代这些智力挑战不大的判断工作,实现全流程自动化。

半自动化和全自动化的区别是巨大的,因为 AI 可以 24 小时工作,还能复制成百上千份。所以我们认为,Claude Code 目前的状态已经足以将创作 agent 的门槛降到极低。

晚点:Claude Code 是目前最强的通用智能体,它强大的能力足以极大地丰富 Agent 的供给。因此,现在是否是做 Agent 交易平台的绝佳时机?

陈宇森: 是的,这正是我们一直在等待的、能够让创作变得足够简单的时机。Anthropic 的官方博客也提到,他们最初做 Claude Code 是为了辅助编程,但内部员工发现它可以很好地处理查看邮件、电脑操作等各种通用任务。大家对通用任务的需求其实非常旺盛。

而要让 Claude Code 把这些事情做得更好,核心就是为它提供足够好的运行时环境,也就是 runtime。比如,不给它浏览器,它就没法做网页操作;给了它,它就能自己去执行。就像近期英伟达发布的能帮人打游戏的 AI 一样,只要你给 Claude Code 一个 Windows 环境,并讲清楚游戏操作的技能,理论上它也能帮你打游戏。所以在拥有足够好的运行时环境和清晰的技能设定下,理论上现在的 Claude Code 已经可以做电脑上的任何操作。

晚点:所以你们目前在做的核心是否就是这两件事:为模型提供足够好的运行时环境和清晰的 Skills,同时配合一套交易系统?

陈宇森: 对。这套系统听起来似乎谁都能做,但真正做好需要花很多时间。我们的创作者只需编写需求描述、prompt 或 SOP,我们就能将其连接成各种各样丰富的 agent。

我们认为目前市场上有一个没有被充分商业化的点:一个足够好的 prompt 是具有极大商业价值的。现在很多 AI 博主的做法只是免费分享,比如之前 Nano Banana 生图模型火爆时,那个生成 “桌面手办模型” 的绝佳 prompt,最早想出来的人虽然无从考证,但他分享出来后引发了极大的传播。

晚点:“降低门槛” 在你们产品的优先级里排在第一位吗?

陈宇森: 是的,它是非常强的优先级,几乎就是第一优先级。因为在模型能力不断提升的情况下,要想做成双边市场,核心依然是解决供给丰富度的问题,而供给丰富的前提就是极致降低创作门槛。

前面提到的 Nano Banana 就是个很好的例子。当时大家都想做桌面手办图,但自己实现需要能访问大模型,还需要懂得使用搜索引擎去找到那段关键的 prompt,这个门槛把很多人挡在了门外。于是就有人在闲鱼上帮人代做,一次收 5 块钱。

圈内人觉得理所当然的新技术,对大多数普通人来说依然存在极高的使用门槛。如果你能提供一个足够便捷的使用方式,他们是愿意买单的。这就是我们正在做的事情的商业价值。

晚点:这个受众基数确实很大。我之前遇到过一件有意思的事:在餐厅吃饭时,一个十几岁的服务员听到我们聊 AI,就跑来问我们。他说他在一个群里,跟着别人用 AI 给人 P 头像赚钱——其实就是利用免费工具套个滤镜。这种需求其实一直都在。

陈宇森: 是的。几年前生图模型还没和语言模型结合得这么好时,比如早期的 Stable Diffusion 或 Midjourney,写 prompt 就像写代码一样,格式严格,不像自然语言。那时候就有朋友靠帮人生成特定风格的卡通头像,一次也能赚 10 块钱。所以在技术门槛还不够低的时候,做一个连接 AI 能力和普通人之间的 “翻译中介” 是能赚到钱的。

最近 Gemini 3 的核心工程师在接受采访时,解释了为什么模型会这么强。他说大模型的 Scaling Law 还远没有撞墙,智力还能继续提升;更有意思的是,哪怕现在大语言模型的智力停止演进,我们距离 “榨干” 它现有的能力,可能还有一到两年的时间。

所以大家常说 2025 年是 agent 元年,2026 年会迎来应用大爆发。目前的模型能力已经能够支撑做出很多不一样的东西,只是整个行业,无论是创业公司还是大厂,还没有把它的能力上限完全挖掘出来。在这个前提下,我们依然有非常多事情可以做。

同样的技术变化,MuleRun 与竞品不同的做法

晚点:关于竞品,市场上在做类似事情的其他玩家目前处于什么状态?

陈宇森: 早期在 agent 或 workflow 领域,大家都在卷创作工具,最知名的三家是 n8n、Dify 和 Coze 。当时他们产出了大量形态类似 Chatbot 的产品,但输入输出的维度还不够丰富。

这几家优秀的创业公司或大厂团队有着不同的发展现状。Dify 目前更专注商业化,尤其是 ToB 市场,他们在日本和美国都做得不错。因为大公司内部的软件无法对外暴露,Dify 能够帮助他们在安全的内部环境中运行工作流。 Coze 早期的核心逻辑是低代码和 Chatbot,但他们变化很快,近期的发布会显示他们也在转向类似 Vibe Coding Agent 的方向,即放弃拖拉拽,直接通过自然语言需求生成应用,这是一种我们非常尊重的变化。

不过, Coze 目前是一个封闭生态,编辑好的应用很难部署到其他地方,而 n8n 和 Dify 是可以在我们的环境中运行的。至于字节跳动,按照他们的**惯,未来大概率也会做一个完整的大闭环。虽然目前市场上大家对产品的思考和优先级不同,路径选择也各异,但殊途同归,所有人都想打造一个属于新时代的 App Store,最终要看谁的选择能跑到最后。

晚点:蚂蚁集团现在做的 “灵光” 和 Agent market place 有什么关系?

陈宇森: 蚂蚁的 “灵光” 可以理解为高配版的 “马卡龙”,本质上是我们对生产关系的选择不同。灵光的逻辑是 “自己做给自己用”,并将其视为社交网络的一部分;而我们秉持的是 “做出来给别人用” 的交易市场逻辑。

这就像摄影的发展史:早期数码相机极其昂贵,拍照只是一种记录;但智能手机普及后,基于照片这种载体长出了 Instagram 和 Snapchat 等完全不同的产品。Vibe Coding 产生的新事物也是如此,不同平台对其定义和应用路径做出了不同选择。我们将平台上的 agent 纯粹视为解决工作痛点的生产力工具。如果发展得好,我们可以被视为一家全球最大的劳动力外包公司。

晚点:平台正式上线三个月了,你刚才提到并没有涌现出想象中那么多的 PMF,你们原本的预想是怎样的?

陈宇森: 我们原本的预想是切入一些非常 niche 的场景,希望每个场景能有几十到一百个 DAU,每天用它来解决特定问题。但双边市场的冷启动非常困难:没有用户时,创作者不愿意来部署产品;没有优质供给时,用户来了也留不住。

目前我们取得了一定进展,在某些场景下发现了几个或十几个强需求的用户。接下来的核心任务是深挖这些具备机会的单点场景,并极大地丰富供给。只要能把这个核心指标跑通,后续的规模化扩张将不会有太大阻碍。

晚点:在启动阶段,官方会自己做很多 agent 放上来热场子吗?

陈宇森: 就像苹果应用商店一样,官方必须提供计算器这类基础工具。我们平台上也有官方制作的基础产品,比如 General Browser Operator。早期我们没有投入大量精力做官方 agent,是因为我们选择了 “框架中立” 的路线,需要耗费大量工程精力去兼容各种产品的部署方式,团队确实做不过来。

现在回过头看,如果最初几个月多花时间去做一些看准场景的官方 Agent,效果可能会更好。不过随着新的创作范式(Claude Code + Runtime + Skills)的到来,如果我们能充分拥抱它,仅靠我们自己团队也能在一个月内上架非常多好用的 agent。

晚点:你们现在的团队规模是多少?

陈宇森: 我们现在有 50 个人左右,规模不算小,整体成本也不低。

晚点:你们提到在工作和生产场景中需要 “大量 SOP 加少量大模型” 来实现高成功率。这在你们平台的产品上是如何体现的?是通过上架审核来控制吗?

陈宇森: 我们不会限定创作者的工作思路,如果有人能用一小段 SOP 或 prompt 就让任务稳定运行,那说明他很厉害。但作为交易平台,我们的底线是交付极高的任务完成率。比如一个任务跑 100 次或 1000 次只能错 1 次;如果跑 10 次错 5 次,这就是不合格的商品,必须下架。

为此,我们一直在开发复杂的 benchmark 和评估监控系统,持续检验 agent 的有效性。同时,平台也会引入用户评论反馈和退款机制。这些听起来不性感的 “苦活”,恰恰能沉淀出极具价值的输入输出数据,帮助我们更好地洞察 agent 的演进方向。

这其实与 Anthropic 开发 Claude Code 的底层思考一致,也就是《苦涩的教训的边界》中所提到的:很多确定性的事情,比如比较 9.11 和 9.2 的大小,就应该交给代码去执行,大模型的任务是判断何时调用代码并提取结果,而不是把冗长的上下文塞进提示词里让模型自己去瞎猜,那样极不稳定。

晚点:随着模型能力的不断提升,你认为 “大量 SOP 加少量大模型” 这个策略会持续有效吗?

陈宇森: 如果能够瞬间完成人类所有任务的强 AGI 真的实现了,那我们可能确实就没有存在的空间了,因为全人类都可以直接躺平。但我们判断这种形态的 AGI 短期内不会出现。在它出现之前,我们平台的价值极其巨大。而且,由于人类的大量知识依然沉淀在个人的大脑和线下环境中,模型厂商很难在逻辑上瞬间获取这一切,同时人类也会不断涌现出全新的需求。

退一步讲,哪怕未来出现了超级大模型,只要我们的供给足够丰富,我们依然可以成为那个入口级的 agent:用户提出需求,我们在数以百万计的供给中精准匹配解决方案。在那一天到来之前,我们只需要专注做好当前阶段的事情。

晚点:在现在的阶段,你们要做框架中立的产品,提供好的运行时环境和清晰的 skills,这其中的难度是什么?遇到过哪些问题,又是怎么解决的?

陈宇森: 大方向其实很容易想到,但要考虑:如果未来要并行启动很多实例,启动时间、稳定性如何?创作时让用户定义什么、不定义什么?这涉及产品设计的复杂性,是让每个创作者可以定义它的环境,还是更暴力地所有东西塞在一起只做选择?这个选择涉及镜像变更与否,有很多小细节。

但大逻辑上,Anthropic 已经把谜底写在谜面上了:Claude Code 是非常强的通用 agent,就应该让它做很多事情。但怎么让它服务每一家不同的产品、做不同的事情,大家的选择会不一样。把一个东西做出来很简单,但把它做好,细节太多了。

晚点:怎样算 “做好”?

陈宇森:朴素的标准:简单、稳定、好用。

晚点:长期来看,如果未来 AI 外包平台能满足大量长尾的分散需求,那独立的 General Agents 还有多少生存空间?这感觉就像淘宝这种平台的体量最终超越了绝大多数独立的消费品牌。

陈宇森: 完全同意。在中国的电商市场,独立站的模式很难成立,因为平台能以更低的成本汇聚并分发流量。我们认为同样的逻辑也适用于 AI 领域:未来大量垂直的 AI 应用,如 AI 招聘、AI 绘图、AI 营销等,最好不要独立发展,而是应该长在一个统一的大平台上,由我们去凝聚这股强大的生产力。

但 General Agents 和我们是两个不同层面的生态,互相之间不存在严重的挤压。General Agents 还涉及 memory,比如一个深度使用 ChatGPT 的人很难迁移到其他产品,因为模型已经充分了解了他的**惯和偏好,能提供高度匹配的建议。这两者服务于不同的用户心智和需求场景,会各自长期存在。

时隔一个月:Agent Builder 内测开启、交易平台不会再是货架式

以下内容,是 1 月晚点与宇森的第二次访谈。此时, MuleRun Agent builder 已开始内测,我们更详细地聊了 Caude code 开启的 skills,MuleRun 如何做 Agent builder,为何货架式的 Marketplace 可能不再适用。

晚点:上次提到,MuleRun 主要提供清晰的 skills 和良好的 runtime。现在 skills 是非常热门的实践,agent 里的 skills 究竟是什么?实质是一些文档吗?

陈宇森:skills 的核心在于帮助 agent 处理复杂任务时进行分层加载,本质上它是 Context Engineering 的一部分。过去处理复杂任务需要编写很长的提示词,而长文本压缩容易导致模型丢失信息。通过 skills 机制,agent 一开始不需要读取所有内容,而是先查看所有 skills 的元数据信息,了解它们分别能解决什么问题。当遇到特定问题时,agent 再决定加载并读取特定的 skills。

skills 大多数是文档,但有时也附带工具、预先写好的程序或 API。例如,当遇到特定问题时,skills 会指示 agent 直接调用某段代码或 API 获取结果,而不是让大模型自己去推理和处理。因为大模型的上下文窗口非常宝贵,输入过长会导致其产生幻觉且逻辑能力下降。在调用时,agent 何时读取哪个 skill 完全由模型自行判断。

这正是 agent 与传统软件最核心的区别:传统软件的逻辑是写死的,依赖大量的条件判断分支来解决特定问题;但在现实世界中,许多问题无法完美分类,此时就需要大模型充当决策者,一边分析问题,一边审视系统内现有的 skills,动态匹配并深入读取最合适的 skill 来解决问题。

晚点:既然 MuleRun 平台致力于提供清晰的 skills,这些 skills 是官方编写的吗?

陈宇森:官方肯定会编写一些高频常用、且需要与我们平台的运行时环境高度配合的 skills。目前网络上 skills 的编写门槛不高,数量庞大,比如仅在 GitHub 上就能抓取到数万个。因此,我们目前的核心工作是建立一套高可信度的 skills 评价系统。

当用户提出一个特定任务,例如挑选餐厅,或转换 PDF 格式,而网上有多个相关 skills 时,我们需要通过算法分析并推荐最优选。同时,我们还要进行严格的安全审计,防止恶意的 skills 获取用户环境的控制权。作为一个好用的交易市场,我们需要在底层做大量的优化与筛选工作,确保最终提供给用户的 skills 在同类中表现优异且绝对安全无害。

晚点:你们主要关注哪类 skills 的优化?

陈宇森:在具体方向上,我们会重点优化浏览器操作和网页自动化相关的 skills。现在许多工作都在浏览器内完成,如果能自动协助用户完成这些任务,将产生巨大的价值。我们不仅自己研发,也会积极优化社区中优秀的 skills,使其与我们的运行时环境及工具完美结合。

晚点:你们的基建更多是关注长尾需求,这是否意味着过去那种集中式、高成本的软件开发模式将发生改变?如何看待未来软件的组织形态和商业模式?

陈宇森:过去的软件开发成本高昂,必须服务成千上万人的共同需求才能支撑其商业模式。但现在的 AI 开发就像 3D 打印一样,你可以专门为自己或三五个朋友的少数特定场景需求去开发一款 agent,而且体验非常完善。门槛的降低使得开发的组织形态变得极其分散。展望未来十年,如果不进行自我革命,传统软件公司很可能会被 AI 公司全面取代。

未来的软件甚至可能是 “日抛型” 的,即代码仅为执行特定目的而精准生成,执行完毕后即刻销毁。虽然这种绝对的 “一次性代码” 状态在短期内难以完全实现,但目前创建一个受众小却能让特定人群感到好用的 agent,已经是一件极具价值的事情。

当然,这种长尾且分散的 AI 模式本质上是一种制造业,每一次执行都在消耗算力和 token,对能源的需求极大。只要 AI 能力还存在显著的层级差距且未形成完全垄断,token 的成本在短期内很难大幅降低。但由于 AI 作为先进生产力能全面渗透并重组人类社会的劳动力,其未来的需求几乎是没有上限的,这甚至可能会倒逼人类加速发展可控核聚变或太空数据中心等前沿科技。

题图来源:MuleRun 官网

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

精彩评论

我们需要你的真知灼见来填补这片空白
发表看法