“又一个登月时刻?”
投人的价值,K2 如何逆风翻盘
晚点:我想聊一下 Kimi K2。今年年初 DeepSeek 引发热潮后,Kimi 内部也有了一个比较明确的目标,就是要追求 SOTA。在这个目标下,K2 应该是他们做出方向调整后第一个比较重磅的成果。你对这个过程是怎么理解的?
戴雨森:我想先讲个小故事。前几天,暗涌在良渚组织了一个圆桌,把投资了 Kimi 和 MiniMax 的投资人都请到一块。我还开玩笑说,这像是一个「同情局」,仿佛我们投了大模型公司,很惨该被同情。但我觉得,其实真正体现一个团队能力的,是他们面对挑战时的应对方式,以及是否坚持自己的路线去做有价值的创新。
顺风的时候有顺风的打法,逆风的时候也有逆风的打法。像 MiniMax,他们专注自己的方向,现在也在推进上市流程。这就是他们面对挑战的方式。当然,也有一些公司在逆风中内部团队发生较大变化,甚至业务方向都有调整。但我觉得 Kimi 特别的一点,是他们的团队非常稳定。如果你看他们的创始团队或核心成员,几乎没有大的变动。
晚点:这其实就是我第一个好奇的点。现在很多公司到了联合创始人或核心业务负责人层面,都会有一些变化,但 Kimi 基本没怎么变。
戴雨森:这可能跟他们的团队组成有关。Kimi 的创始团队一直是以植麟为核心,而且成员是清华的老同学,之间合作很多,甚至是室友还一起玩过乐队。并不是因为要做大模型公司才临时组起来的。
晚点:我查阅资料时发现,当年杨植麟去评特奖的时候,有一张照片是他们系的一些同学举着横幅去支持他。几位他们系的师弟师妹都会说杨植麟在当时就是一个让大家觉得、非常有号召力的人。
戴雨森:没错,这也是我们从一开始就决定投资他们的重要原因之一。这个团队不仅有技术,而是有很长的共同信任。创业会经历很多挑战,如同压力测试,在面对挑战的时候,团队稳定和方向聚焦会很重要。
Kimi 这个团队从一开始就是以技术基因和技术视野作为核心能力的。很多人可能已经忘了,在 2023 年的时候,AI 的变化太快,几乎每个月都有新风向。当时,Kimi 就对长文本这个方向做出了很重要的判断,选择做了一个具备长文本能力的模型,并基于这个推出了带搜索能力的 Kimi 第一个版本。
那时大量的 AI chatbot 其实是没有搜索功能的。没有搜索,模型的用途就会受到很大限制,比如你随便问一个「现在的美国总统是谁」,它都可能答不上来。
Kimi 团队当时对长文本技术方向的判断就展现了他们非常强的技术 vision。到了 2025 年,AI 更强调 Agent 能力、复杂任务执行、以及处理更大的代码库,大家才真正意识到长文本的重要性。如果你真的要让 AI 做一个 Agent,完成一个复杂任务,它不能只是执行 100 步就歇了。回头看,其实这也验证了植麟判断上的准确。
所以我觉得他们团队身上,有三个特别重要的品质:
第一是团队的稳定性。这来自于成员之间长期的渊源和信任。
第二是对技术方向的坚持。他们不是看到哪个火就往哪儿跟风,比如陪伴火了去做陪伴,多模态火了又去做多模态。很多方向都可以做,但真正有积累的是那些持续做一件事的团队。
第三是他们一直保持的技术敏感度和洞察力。这个在技术变化的关键节点上尤其重要。
当然 R1 的成功也确实给了行业很多启发,这一点毫无疑问。当时很多人看到 R1,有个流行说法是:「pre-training 不重要,post-training 才重要。」但我认为 R1 的基础是 V3,这恰好说明好的基础模型很重要, pre-training 和整体架构优化可以带来模型能力的提升。K2 现在还是个 non-reasoning 的模型,已经呈现出很好的能力,这也说明 pre-training 依然很重要。
开源也很重要。现在全球 AI 社区正处于 Early Adopter(早期采用者)阶段,通过开源优秀的模型和产品给社区提供价值的团队,很容易得到热心的回应。我们在 DeepSeek、K2,以及我们 sponsor 的 vLLM、ControlNET 等开源项目中看到,只要不断拿出好的产品,保持对用户开放交流的态度,世界各地的用户都会欣赏、支持你,甚至主动帮你改进问题。但只是开源不本质,本质是开源好的东西,不是开源就一定好,社区觉得好才是核心。
晚点:说到开源,因为 K2 是 1 万亿参数,开源社区里能真正部署的人很少。
戴雨森:K2 主要的场景不是在本地机器部署,事实上要在本地满血跑 Deepseek R1 也不简单。开源的核心不在于本地部署,而是让大家对模型有更多自主把控。
晚点:你能总结下他们为什么能做出 K2 这种级别模型?现实过程中遇到了哪些挑战?外部舆论把他们放在低谷,是否带来很大压力,比如人才流失?我指的不光是核心层,还有一线工程师。
戴雨森:这里肯定有人流失,但 Kimi 有两点优势:第一,核心层很稳定;第二,很多年轻同事愿意留在 Kimi。
我觉得大家留下不只是因为钱,更因为能学到东西,能干成自己觉得厉害的事。这符合 Kimi 核心团队的基因。
之前做投放时讨论过,他们做投放不是强项,但现在是回归了初心,做团队能力最强的方向。我觉得这很重要。面对外部市场压力,首先不要乱,要聚焦自己最擅长、最能做好、最有意义的事情。知乎上也有好几位 Kimi 的研究员写了参与 K2 的很多感想。
技术变化:推理、编程、工具使用
晚点:在技术领域,你会比较关注哪些变化?
戴雨森:我们之前聊到过,我认为解锁 AI 生产力的三大主线是 reasoning、coding 和 tool use。
在 reasoning 方面,我们看到了 o3、o4 mini 的发布,还有后来的 o3 pro。虽然这些模型在一些榜单上表现进展不大,但我们自己的使用体验是,o3 相比 o1 是一个明显的大台阶,o3 pro 在推理长度和逻辑连贯性上也越来越好。现在很多模型在 reasoning 的细节上都有进步,比如细节的幻觉减少,推理结果更严谨。
同时我们还看到,一些小一点的模型也开始具备很强的 reasoning 能力。像 GPQA 或 AIME 这些反应模型 reasoning 能力的指标都非常高。K2 在这方面也表现不错。
晚点:我们之前和一些人交流,比如阿里云 CTO 周靖人,他并不觉得像 o 系列的更新是特别大的范式变化。他认为这还是在大模型原有方法框架内的自然延展。
戴雨森:这个我同意。如果这些模型还是 Transformer 架构,那它们就还是在现有范式内演进。大家现在都在期待下一个 Transformer 是什么。
不过有时候,一个技术范式就可以走得很远。就像高速公路可以用几十年,不一定非要每年都有颠覆式的架构变化才叫创新,实际上,如果每年都有颠覆式的技术发生,那说明这个行业还很不稳定,反而不一定适合产业落地。今年我们在产业上真正能用到的技术,并不是从 0 到 1 的变化,更像是从 1 到 10,甚至从 5 到 8 的进化。像 reasoning 的进步,就是从很好变成非常好。
在 coding 上,Sonnet 3.5 已经很不错了,但 context 长度还不够,自我纠错能力也一般。Sonnet 3.7 和 4 跑在 Claude Code 上效果非常好。对复杂代码、长代码段,它们常常一步就能做对。这不是从 0 到 1,而是从 7 到 10 的质量提升。
晚点:在基础模型的竞争上,Google 最近的势头也很强。过去两年 OpenAI 横空出世时,Google 给人感觉有点被打懵。但现在 Gemini 2.5 的口碑和实际使用反馈都很好。
戴雨森:确实,Google 技术积累深厚,人才密度高,又非常有钱,算力也很充沛。所以我们今年明显感觉到 Google 的边际变化是很大的。
模型层面,Google 的 Gemini 2.5 表现非常好。云服务层面, 提供同样的 Claude API 推理服务上,GCP 的表现其实更好,这背后也离不开 TPU 的支持。Google 的实力很强,是现在模型领域前三名中非常有竞争力的一家。
但他们现在也有一个现实问题,就是 Google 的搜索主业正在承压。因为担心 AI 对搜索广告带来冲击,所以它的股价一直在震荡。我觉得这就是一个典型例子:老业务在受损,而新业务增长又很快。这最终会怎么演化,我觉得可能还需要一两年才能看清。
应用的生长,让 AI 不止于问答
晚点:这也回到了你之前提到的一个主题:模型和上层应用之间的关系,现在这个关系还在演变。
戴雨森:应用的价值首先取决于模型本身,也就是模型厂商固化在权重里的那些基础能力。模型的推理能力、编程能力越强,应用所能释放的价值就越大。但权重一旦固定,内容就是死的,而问题是动态的,所以需要引入 context,现在流行的 context engineering vs prompt engineering 也说明了 prompt 模型并不够,还需要更多更好的 context。
我认为 context 可以分为三层:
第一层是通用信息,比如「今天的天气怎么样?」这类模型本身是没有的,需要通过搜索等方式动态获取。虽然现在也有模型能做简单的搜索工作,但这需要给模型配备合适的工具。
第二层是组织层面,比如公司内部有哪些流程、文档、已有的知识积累。这些信息模型本身也不知道,需要通过应用层与模型协作,让模型指导人去调用这些信息。比如一个人和 AI 的对话历史、个人偏好、背景信息等,这些模型也不具备,必须由应用层来提供。
所以 context 这一层是由应用来提供的,它的质量会对 AI 应用的表现带来巨大差别。
AI 的目标不只是成为一个问答机器,最终它是要真正帮用户完成事情。那在做事情的时候,它能调用哪些工具、影响什么结果,这些也是由应用层公司提供的。比如产品提供了哪些公有或私有的 MCP 工具,或者最终 AI 能把它的输出结果部署在什么环境上。
所以我觉得模型其实只是最底层的那一块。只是因为在 ChatGPT 刚出来的时候,我们大多数使用场景都是在「问」模型,也就是提取它通过压缩已有知识获得的回答。比如问一个事实类的问题,这种情况下确实主要靠模型本身。但当任务更复杂、模型的智力需要与 context、甚至 environment 配合才能发挥作用时,那就是「壳」的价值了。
晚点:所以你觉得这是一个很自然的演化路径?也没必要非得强化「我们就是做模型」这件事?
戴雨森:对,模型肯定很重要,但只靠模型本身可能不足以真正释放出全部的价值。
晚点:一年前大家怎么看 Google?一个失意者?
戴雨森:大家那时候肯定觉得 Google 有点落后,被 OpenAI 抢了风头,很多人才也选择出走。但后来 Google 的联合创始人 Sergey Brin 回归公司之后,很多事情发生了变化。比如有传闻说 Google 收购的 Character.ai 创始人 Noam Shazeer 回去后亲自改了一个 bug,直接让模型性能大幅提升。真假不确定,但关键人才确实能解决问题。
晚点:所以 Google 能快速追赶,可能不仅是技术,也有组织方式、投入强度的变化?
戴雨森:对,他们对这件事是真的非常重视。我听说 Gemini 团队加班也很厉害,原本大家觉得 Google 是养老公司,但现在他们也很拼。
晚点:模型竞争其实激活了很多聪明人,追求的成就感也回来了。
戴雨森:我觉得是的。这几家公司的创始人都非常重视 AI,现在已经不是「AI 会不会落地」的问题了,而是必须赢。
不管是 Zuckerberg、Sergey Brin,还是 OpenAI 和 Anthropic 的团队,他们都看到 AGI 已经迫在眉睫,意识到这件事的重要性,愿意花钱、愿意投入资源。
最近 Y Combinator 的创业营也提到,现在做任何公司,都应该以「AGI 两年内实现」为前提假设。你要思考:假设 AGI 两年内实现,那你的公司该怎么做?
当然 AGI 到底是什么还有很多争议,但毫无疑问巨大的变化正在发生,而且是快速发生。现在硅谷学计算机的学生找工作都变难了,因为初级程序员的工作已经被 AI 替代了很多,很多变化是实实在在发生的。
晚点:我们回到你说的三条主线。我们讲了推理和编程,现在讲工具使用。最近像 Kimi K2 和 Grok 都在训练阶段就加入了使用工具的能力。这是新趋势吗?
戴雨森:现在 AI 使用工具主要有两条路线:
像 MCP 这样,走 API 接口方式;
通过视觉模拟 AI 操作已有软件。
这两种方式都有人在做,现在像 MCP 这样的生态已经建立起来了,越来越多为 AI 搭建的工具变得可用。又比如 Manus 和 OpenAI 的 Operator 用的是沙盒虚拟机里面的浏览器、通过视觉操作浏览器等已有的软件,模拟人类的使用过程,目的是让 AI 更好地调用已有软件的功能。
能够使用人类的工具完成任务,我觉得这是让 AI 真正变有用非常重要的一件事。
Agent 让每个人学会当好老板
晚点:其实在 OpenAI 最开始规划的五个阶段里面,第三个阶段就是推理之后的 Agent。
戴雨森:对,之前张祥雨有个播客讲得特别好,我很认同他的分析。第一个阶段是 chatbot,对应 ChatGPT;第二个阶段是 reasoning,对应 o 系列模型;第三阶段的 Agent 对应的是 Agent-native 模型,但目前好像还没有真正出现。
在 Agent 的定义中,目标是 AI 自己去寻找的,但目前目标仍由人给定。Agent 是说,我给你一个目标后,它去预测使用工具的序列,选择什么工具完成任务。它可能还没做到像给员工完成任务那样,自己拆分任务和定义目标。
现在 AI Agent 这一类产品还处于非常早期阶段。比如 Manus 才刚推出几个月,但我觉得一年甚至半年后,随着模型能力提升,这类产品的能力会大幅增强。
我想说的是,不同公司因为资源禀赋不同,解决 Agent 这个问题的方式也会有差异。我们尽量不做预判,不认为我们能够预先知晓未来。比如 Kimi 的看法是 Model as Agent,通过模型训练中加入大量端到端的工具使用数据,让模型本身具备强大的工具调用能力。而同样是调用闭源模型 API 的产品。Manus 提出了「less structure, more intelligence」,但有时结构化也能提升工作效率。Genspark 就专门做了针对 PPT 场景的 slide 生成功能,引入了一系列优化工作效果的方法。
晚点:这两种角度都对。对用户来说,有些场景有大致流程,结果更可控,成本也会更低。
戴雨森:因为用户要的是最后的结果,而不同的公司想实现这个结果,可能有各种不同的路径。有的灵活但成本高,有的固定但成本低。所以大家解同一道题,用不同方法都合理。
晚点:你说的最大趋势无疑还是 Agent?
戴雨森:是 AI 对生产力的提升,想让 AI 把生产力真的提高,就得让 AI 承担更多工作。像 Claude Code、Manus 等 Agent 产品,核心理念是人不做事,AI 做事。
有人说这是类似自动驾驶 L3 级别的产品,人不动方向盘,车自动驾驶。我们发现写代码的工程师一开始喜欢 Cursor,因为它还是让你在熟悉的 IDE 里面写代码,但 Manus 发现产品经理用 Cursor 去完成任务不怎么看代码,只是看右边的对话框,所以他们把对话框放到主要的位置,做出了一个更加适合非程序员人群使用的 Agent。
随着模型能力的进步,Claude Code 更极致,用户不能写代码,只能告诉 AI 你要做什么,其他的 AI 去完成。所以 L3 或 Agent 意味着 AI 去作为执行主角,而用户要学会当 AI 的好老板。
晚点:这对很多人来说挺难,是门槛。AI 做事不满意,你让它做几次都不行。
戴雨森:以前我创业时也这么想,所有事我都亲自做。后来发现这不是好管理方式,我应该赋能下属,让他们知道我要什么,让他们有主观能动性。
以后人类指挥 AI 可能也是这样,这可能是人类历史上第一次要培养一个工具。以前培养人很难,大部分人是被培养的,很少有人有能力或机会去培养一个下属。但现在每个人可能都要学会如何给 AI 下命令,如何培养 AI 去更好完成工作。
晚点:你提到 Manus、Genspark 这类通用 Agent 的用户群都比较广泛。你们怎么观察垂直场景里的 Agent?
戴雨森:通用是因为当前模型能力偏通用,但肯定会逐渐涌现某些垂直场景。
我觉得一个好的产品,最后肯定还是要有清晰的定位,要在某些领域做到绝对的第一名,才能拥有长期价值。或者说我们目标不是追求通用,而是从通用开始,逐渐发展收敛到一些核心场景。
技术革命的早期发展阶段,往往大家都在尝试,也不知道新技术适合做什么,最后看什么效果最好。例如蒸汽机刚被发明时,最开始是用于抽煤矿的水,后来发现用来驱动火车和纺织机更好。蒸汽机也是一个「通用技术」,但最后最大的价值可能来自几个具体场景。
我觉得现在 coding、做 PPT 这类的 office work、deep research 三者毋庸置疑是已经涌现出来的重要方向。
晚点:有个话题挺有意思。国内大家讨论通用产品,觉得这是大公司的必争之地。但跟国外投资人聊,他们反而对 Super App 的可能性更感兴趣,关心怎么打败 OpenAI 和 Google。
戴雨森:如果你有机会挑战大公司,那是好事,至少有资格参与奥运会,比不参与强。
很有意思的一件事是,Manus 出现后,有很多人说它没壁垒,用开源框架一个周末就能搞出来。但现在过了这么多个周末,还没看到任何一个类似的应用能真正做好的。
我觉得在全球市场,大家对真正的创新还是尊重的,不会直接复制完全一模一样的产品。可能会借鉴交互或呈现思路,比如 AI 在干活的表现形式,但不会直接像素级复制。在全球化竞争里,先发优势会带来很多口碑和传播优势,这也是对创新者的建奖励。
每月 1000 美金的 AI 产品订阅
晚点:你算过现在一个月在 AI 产品订阅上花多少钱吗?
戴雨森:大概接近 1000 美金。Manus 是 200 美金,Genspark 是 200 美金,ChatGPT、Gemini、Grok 这些也都差不多各 200 美金。我买的基本上都是高级方案。
我一直有个理念,新产品就要多试试,很多时候花点钱试一试并不过分。很多 AI 产品的革命之处不能只看报道,得亲身去用。当你能看到一个未来的时候,你会产生很多的灵感。
我们三月份就观察到,Manus 上线后推理用量暴涨,Agent 产品的 token 用量相比 Chatbot 是显著增长。当时二级市场很多人还在质疑英伟达,觉得哪怕全世界所有人都用 chatbot,推理需求也根本没那么大,用不了那么多算力。
但其实这就像拨号上网时代,一开始所有人都在聊 QQ,不需要那么多带宽。但有了宽带网之后,大家就要在线上看 4K 视频了。模型能力越强,可以解锁的场景越多,token 使用就越多。
晚点:2023 年,黄仁勋在英伟达内部讲话中说,他们的市值目标是 2 万亿美元。当时英伟达刚刚突破 1 万亿。我们还在讨论他这口气是不是太大。结果今年已经突破 4 万亿了。
戴雨森:他很快可能会到 5 万亿。因为 token 向生产力的转化趋势才刚刚开始。
这就像火车开动了,就不会突然又停下来了。我们现在还在不断发现 AI 新的使用场景。比如说一个工程师原来一天可以写 100 行代码,现在有了 Cursor、Claude Code,可能写的代码是原来的 10x,能解决更多以前没想过要解决的问题。又比如有了 ChatGPT 和 Manus,你会问的问题也会变多。
很多以前不知道该问谁的问题,现在可以用 AI 来解决。给用户带来的生产力提升,导致用户更愿意付费。
晚点:目前生产力场景的 token 消耗是非常高的?
戴雨森:生产力可以以 10 倍,100 倍的速度增长。和 AI 闲聊再怎么聊,一天就那么多时间,这是我们以前讲的 attention is all you need。如果你要的是用户注意力,它是有限的,并且是和抖音,Tiktok、小红书一起去争夺的注意力。
但在生产力场景,用户需求的上限很高,可以从问一个问题变成问 100 个问题,需要的算力可以涨 100 倍。
晚点:而且单位时间内 token 消耗的复杂度也在迅速提升,比如我要消费的内容、视觉信息可能也变得更复杂。
戴雨森:在未来你可以问 AI 之前没想到的非常复杂的问题,我给你举个很简单的例子。比如美股二级市场的朋友,在财报季时一天可能要关注五六家公司发业绩。凌晨四点起床看财报数据、代入模型做对比、听电话会议、分析 CEO 的展望,都是他们的日常。
原来他们不可能同时听多个财报会,只能靠招更多人或挑重点去选择。但现在有了 AI,虽然目前还不能完全跑通全流程,但 6-12 个月内就有可能让一个分析师同时覆盖 50 家股票的财报。
AI 可以帮他们看财报、听电话会议记笔记、回答事前准备好的问题、总结 CEO 回答、写报告。这些原来因为「做不到」才没放到你的工作时间表里的事情现在 AI 能完成了,需求就自然增长了。
就像飞机出现之前,没有人会说「我今天要飞美国出差」。但飞机一旦存在,新的需求就出现了。AI 也一样,它让你开始做那些你原本不会想做的事。
晚点:时间是有限的。但单位时间内娱乐内容的复杂度、感官刺激可能会大幅提升,这也是以前难以想象的。
戴雨森:对,确实难以想象。但我想说的是,生产力的价值是直接可衡量的。比如 AI 帮我赚 100 块钱,我为它付 1 块或者 10 块。
而且我们观察到一个很有意思的现象:当 AI 按 token 用量计费后,很多人是希望用得更多的。因为它确实在帮你完成工作,比如帮你写了更多代码。
这本来就是你自己要做、要花时间花钱雇人做的事,现在 AI 帮你完成了,它就有价值。
硅谷 Acqui-hire 抢人大战
晚点:关于最近这场「抢人大战」你有没有什么看法?
戴雨森:确实最近有很多人被挖走,也有人接到电话但没去。大量优秀人才被 disruptive(颠覆性)级别的薪资挖走。
这种挖角不管是对被挖团队,还是 Meta 自己原有的团队,都是非常大的冲击。在硅谷几乎所有顶尖公司都在发生类似动荡。被挖的人所在团队军心难免动摇,留下的人也开始质疑:是不是自己也该涨薪?
这种高薪挖人当然是人才价值的体现,但越是顶级人才,也越需要时间和环境来磨合,才能真正形成合力。历史上失败的例子也很多,所以对于这些组织来说,这既是机会,也是一场挑战。
晚点:你觉得抢人竞争算良心吗?
戴雨森:我觉得这也是体现了创始人的精神,就是他愿意不惜代价去争取人才。如果花钱能解决的事,我就花钱办。我觉得这也反映了人才确实很重要。
晚点:压力主要是在硅谷吗?不过从另一面看,这也给创业公司提供了不错的退出机会。
戴雨森:但是这种退出可能不够大。有的人觉得公司卖个几亿美元就挺好,有人则想做千亿美元公司。创业公司也需要更多弹药去和 Meta 这样的大厂竞争。比如说 Cursor 之前融了很多钱,我们一度还觉得融这么多钱做什么,现在看到他们要面对的是更多钱补贴用户用 token,招人也要更高成本,所以融资更多很合理。现在竞争无论是补贴还是人才都升级了。顶级人才也有很多选择,对很多创业公司来说,加入战局的门槛和水位都在提升。
晚点:硅谷这种人才收购(Acqui-hire)很流行,主要是为了绕过反垄断限制,也反映了竞争多激烈。
戴雨森:大家都想加快节奏,因为钱太多了。几家巨头账上都有大量现金,这些钱投下去,如果能用钱换时间和竞争优势,对他们来说就是简单的事情。
题图来源:真格基金
精彩评论