晚点播客丨IMO 金牌、Kimi 翻盘、抢人大战，与真格戴雨森复盘 2025 AI 中场战事（下）_老虎社区_美港股上老虎

晚点播客丨IMO 金牌、Kimi 翻盘、抢人大战，与真格戴雨森复盘 2025 AI 中场战事（下）

“又一个登月时刻？”

投人的价值，K2 如何逆风翻盘

晚点：我想聊一下 Kimi K2。今年年初 DeepSeek 引发热潮后，Kimi 内部也有了一个比较明确的目标，就是要追求 SOTA。在这个目标下，K2 应该是他们做出方向调整后第一个比较重磅的成果。你对这个过程是怎么理解的？

戴雨森：我想先讲个小故事。前几天，暗涌在良渚组织了一个圆桌，把投资了 Kimi 和 MiniMax 的投资人都请到一块。我还开玩笑说，这像是一个「同情局」，仿佛我们投了大模型公司，很惨该被同情。但我觉得，其实真正体现一个团队能力的，是他们面对挑战时的应对方式，以及是否坚持自己的路线去做有价值的创新。

顺风的时候有顺风的打法，逆风的时候也有逆风的打法。像 MiniMax，他们专注自己的方向，现在也在推进上市流程。这就是他们面对挑战的方式。当然，也有一些公司在逆风中内部团队发生较大变化，甚至业务方向都有调整。但我觉得 Kimi 特别的一点，是他们的团队非常稳定。如果你看他们的创始团队或核心成员，几乎没有大的变动。

晚点：这其实就是我第一个好奇的点。现在很多公司到了联合创始人或核心业务负责人层面，都会有一些变化，但 Kimi 基本没怎么变。

戴雨森：这可能跟他们的团队组成有关。Kimi 的创始团队一直是以植麟为核心，而且成员是清华的老同学，之间合作很多，甚至是室友还一起玩过乐队。并不是因为要做大模型公司才临时组起来的。

晚点：我查阅资料时发现，当年杨植麟去评特奖的时候，有一张照片是他们系的一些同学举着横幅去支持他。几位他们系的师弟师妹都会说杨植麟在当时就是一个让大家觉得、非常有号召力的人。

戴雨森：没错，这也是我们从一开始就决定投资他们的重要原因之一。这个团队不仅有技术，而是有很长的共同信任。创业会经历很多挑战，如同压力测试，在面对挑战的时候，团队稳定和方向聚焦会很重要。

Kimi 这个团队从一开始就是以技术基因和技术视野作为核心能力的。很多人可能已经忘了，在 2023 年的时候，AI 的变化太快，几乎每个月都有新风向。当时，Kimi 就对长文本这个方向做出了很重要的判断，选择做了一个具备长文本能力的模型，并基于这个推出了带搜索能力的 Kimi 第一个版本。

那时大量的 AI chatbot 其实是没有搜索功能的。没有搜索，模型的用途就会受到很大限制，比如你随便问一个「现在的美国总统是谁」，它都可能答不上来。

Kimi 团队当时对长文本技术方向的判断就展现了他们非常强的技术 vision。到了 2025 年，AI 更强调 Agent 能力、复杂任务执行、以及处理更大的代码库，大家才真正意识到长文本的重要性。如果你真的要让 AI 做一个 Agent，完成一个复杂任务，它不能只是执行 100 步就歇了。回头看，其实这也验证了植麟判断上的准确。

所以我觉得他们团队身上，有三个特别重要的品质：

第一是团队的稳定性。这来自于成员之间长期的渊源和信任。

第二是对技术方向的坚持。他们不是看到哪个火就往哪儿跟风，比如陪伴火了去做陪伴，多模态火了又去做多模态。很多方向都可以做，但真正有积累的是那些持续做一件事的团队。

第三是他们一直保持的技术敏感度和洞察力。这个在技术变化的关键节点上尤其重要。

当然 R1 的成功也确实给了行业很多启发，这一点毫无疑问。当时很多人看到 R1，有个流行说法是：「pre-training 不重要，post-training 才重要。」但我认为 R1 的基础是 V3，这恰好说明好的基础模型很重要， pre-training 和整体架构优化可以带来模型能力的提升。K2 现在还是个 non-reasoning 的模型，已经呈现出很好的能力，这也说明 pre-training 依然很重要。

开源也很重要。现在全球 AI 社区正处于 Early Adopter（早期采用者）阶段，通过开源优秀的模型和产品给社区提供价值的团队，很容易得到热心的回应。我们在 DeepSeek、K2，以及我们 sponsor 的 vLLM、ControlNET 等开源项目中看到，只要不断拿出好的产品，保持对用户开放交流的态度，世界各地的用户都会欣赏、支持你，甚至主动帮你改进问题。但只是开源不本质，本质是开源好的东西，不是开源就一定好，社区觉得好才是核心。

晚点：说到开源，因为 K2 是 1 万亿参数，开源社区里能真正部署的人很少。

戴雨森：K2 主要的场景不是在本地机器部署，事实上要在本地满血跑 Deepseek R1 也不简单。开源的核心不在于本地部署，而是让大家对模型有更多自主把控。

晚点：你能总结下他们为什么能做出 K2 这种级别模型？现实过程中遇到了哪些挑战？外部舆论把他们放在低谷，是否带来很大压力，比如人才流失？我指的不光是核心层，还有一线工程师。

戴雨森：这里肯定有人流失，但 Kimi 有两点优势：第一，核心层很稳定；第二，很多年轻同事愿意留在 Kimi。

我觉得大家留下不只是因为钱，更因为能学到东西，能干成自己觉得厉害的事。这符合 Kimi 核心团队的基因。

之前做投放时讨论过，他们做投放不是强项，但现在是回归了初心，做团队能力最强的方向。我觉得这很重要。面对外部市场压力，首先不要乱，要聚焦自己最擅长、最能做好、最有意义的事情。知乎上也有好几位 Kimi 的研究员写了参与 K2 的很多感想。

技术变化：推理、编程、工具使用

晚点：在技术领域，你会比较关注哪些变化？

戴雨森：我们之前聊到过，我认为解锁 AI 生产力的三大主线是 reasoning、coding 和 tool use。

在 reasoning 方面，我们看到了 o3、o4 mini 的发布，还有后来的 o3 pro。虽然这些模型在一些榜单上表现进展不大，但我们自己的使用体验是，o3 相比 o1 是一个明显的大台阶，o3 pro 在推理长度和逻辑连贯性上也越来越好。现在很多模型在 reasoning 的细节上都有进步，比如细节的幻觉减少，推理结果更严谨。

同时我们还看到，一些小一点的模型也开始具备很强的 reasoning 能力。像 GPQA 或 AIME 这些反应模型 reasoning 能力的指标都非常高。K2 在这方面也表现不错。

晚点：我们之前和一些人交流，比如阿里云 CTO 周靖人，他并不觉得像 o 系列的更新是特别大的范式变化。他认为这还是在大模型原有方法框架内的自然延展。

戴雨森：这个我同意。如果这些模型还是 Transformer 架构，那它们就还是在现有范式内演进。大家现在都在期待下一个 Transformer 是什么。

不过有时候，一个技术范式就可以走得很远。就像高速公路可以用几十年，不一定非要每年都有颠覆式的架构变化才叫创新，实际上，如果每年都有颠覆式的技术发生，那说明这个行业还很不稳定，反而不一定适合产业落地。今年我们在产业上真正能用到的技术，并不是从 0 到 1 的变化，更像是从 1 到 10，甚至从 5 到 8 的进化。像 reasoning 的进步，就是从很好变成非常好。

在 coding 上，Sonnet 3.5 已经很不错了，但 context 长度还不够，自我纠错能力也一般。Sonnet 3.7 和 4 跑在 Claude Code 上效果非常好。对复杂代码、长代码段，它们常常一步就能做对。这不是从 0 到 1，而是从 7 到 10 的质量提升。

晚点：在基础模型的竞争上，Google 最近的势头也很强。过去两年 OpenAI 横空出世时，Google 给人感觉有点被打懵。但现在 Gemini 2.5 的口碑和实际使用反馈都很好。

戴雨森：确实，Google 技术积累深厚，人才密度高，又非常有钱，算力也很充沛。所以我们今年明显感觉到 Google 的边际变化是很大的。

模型层面，Google 的 Gemini 2.5 表现非常好。云服务层面，提供同样的 Claude API 推理服务上，GCP 的表现其实更好，这背后也离不开 TPU 的支持。Google 的实力很强，是现在模型领域前三名中非常有竞争力的一家。

但他们现在也有一个现实问题，就是 Google 的搜索主业正在承压。因为担心 AI 对搜索广告带来冲击，所以它的股价一直在震荡。我觉得这就是一个典型例子：老业务在受损，而新业务增长又很快。这最终会怎么演化，我觉得可能还需要一两年才能看清。

应用的生长，让 AI 不止于问答

晚点：这也回到了你之前提到的一个主题：模型和上层应用之间的关系，现在这个关系还在演变。

戴雨森：应用的价值首先取决于模型本身，也就是模型厂商固化在权重里的那些基础能力。模型的推理能力、编程能力越强，应用所能释放的价值就越大。但权重一旦固定，内容就是死的，而问题是动态的，所以需要引入 context，现在流行的 context engineering vs prompt engineering 也说明了 prompt 模型并不够，还需要更多更好的 context。

我认为 context 可以分为三层：

第一层是通用信息，比如「今天的天气怎么样？」这类模型本身是没有的，需要通过搜索等方式动态获取。虽然现在也有模型能做简单的搜索工作，但这需要给模型配备合适的工具。

第二层是组织层面，比如公司内部有哪些流程、文档、已有的知识积累。这些信息模型本身也不知道，需要通过应用层与模型协作，让模型指导人去调用这些信息。比如一个人和 AI 的对话历史、个人偏好、背景信息等，这些模型也不具备，必须由应用层来提供。

所以 context 这一层是由应用来提供的，它的质量会对 AI 应用的表现带来巨大差别。

AI 的目标不只是成为一个问答机器，最终它是要真正帮用户完成事情。那在做事情的时候，它能调用哪些工具、影响什么结果，这些也是由应用层公司提供的。比如产品提供了哪些公有或私有的 MCP 工具，或者最终 AI 能把它的输出结果部署在什么环境上。

所以我觉得模型其实只是最底层的那一块。只是因为在 ChatGPT 刚出来的时候，我们大多数使用场景都是在「问」模型，也就是提取它通过压缩已有知识获得的回答。比如问一个事实类的问题，这种情况下确实主要靠模型本身。但当任务更复杂、模型的智力需要与 context、甚至 environment 配合才能发挥作用时，那就是「壳」的价值了。

晚点：所以你觉得这是一个很自然的演化路径？也没必要非得强化「我们就是做模型」这件事？

戴雨森：对，模型肯定很重要，但只靠模型本身可能不足以真正释放出全部的价值。

晚点：一年前大家怎么看 Google？一个失意者？

戴雨森：大家那时候肯定觉得 Google 有点落后，被 OpenAI 抢了风头，很多人才也选择出走。但后来 Google 的联合创始人 Sergey Brin 回归公司之后，很多事情发生了变化。比如有传闻说 Google 收购的 Character.ai 创始人 Noam Shazeer 回去后亲自改了一个 bug，直接让模型性能大幅提升。真假不确定，但关键人才确实能解决问题。

晚点：所以 Google 能快速追赶，可能不仅是技术，也有组织方式、投入强度的变化？

戴雨森：对，他们对这件事是真的非常重视。我听说 Gemini 团队加班也很厉害，原本大家觉得 Google 是养老公司，但现在他们也很拼。

晚点：模型竞争其实激活了很多聪明人，追求的成就感也回来了。

戴雨森：我觉得是的。这几家公司的创始人都非常重视 AI，现在已经不是「AI 会不会落地」的问题了，而是必须赢。

不管是 Zuckerberg、Sergey Brin，还是 OpenAI 和 Anthropic 的团队，他们都看到 AGI 已经迫在眉睫，意识到这件事的重要性，愿意花钱、愿意投入资源。

最近 Y Combinator 的创业营也提到，现在做任何公司，都应该以「AGI 两年内实现」为前提假设。你要思考：假设 AGI 两年内实现，那你的公司该怎么做？

当然 AGI 到底是什么还有很多争议，但毫无疑问巨大的变化正在发生，而且是快速发生。现在硅谷学计算机的学生找工作都变难了，因为初级程序员的工作已经被 AI 替代了很多，很多变化是实实在在发生的。

晚点：我们回到你说的三条主线。我们讲了推理和编程，现在讲工具使用。最近像 Kimi K2 和 Grok 都在训练阶段就加入了使用工具的能力。这是新趋势吗？

戴雨森：现在 AI 使用工具主要有两条路线：

像 MCP 这样，走 API 接口方式；

通过视觉模拟 AI 操作已有软件。

这两种方式都有人在做，现在像 MCP 这样的生态已经建立起来了，越来越多为 AI 搭建的工具变得可用。又比如 Manus 和 OpenAI 的 Operator 用的是沙盒虚拟机里面的浏览器、通过视觉操作浏览器等已有的软件，模拟人类的使用过程，目的是让 AI 更好地调用已有软件的功能。

能够使用人类的工具完成任务，我觉得这是让 AI 真正变有用非常重要的一件事。

Agent 让每个人学会当好老板

晚点：其实在 OpenAI 最开始规划的五个阶段里面，第三个阶段就是推理之后的 Agent。

戴雨森：对，之前张祥雨有个播客讲得特别好，我很认同他的分析。第一个阶段是 chatbot，对应 ChatGPT；第二个阶段是 reasoning，对应 o 系列模型；第三阶段的 Agent 对应的是 Agent-native 模型，但目前好像还没有真正出现。

在 Agent 的定义中，目标是 AI 自己去寻找的，但目前目标仍由人给定。Agent 是说，我给你一个目标后，它去预测使用工具的序列，选择什么工具完成任务。它可能还没做到像给员工完成任务那样，自己拆分任务和定义目标。

现在 AI Agent 这一类产品还处于非常早期阶段。比如 Manus 才刚推出几个月，但我觉得一年甚至半年后，随着模型能力提升，这类产品的能力会大幅增强。

我想说的是，不同公司因为资源禀赋不同，解决 Agent 这个问题的方式也会有差异。我们尽量不做预判，不认为我们能够预先知晓未来。比如 Kimi 的看法是 Model as Agent，通过模型训练中加入大量端到端的工具使用数据，让模型本身具备强大的工具调用能力。而同样是调用闭源模型 API 的产品。Manus 提出了「less structure, more intelligence」，但有时结构化也能提升工作效率。Genspark 就专门做了针对 PPT 场景的 slide 生成功能，引入了一系列优化工作效果的方法。

晚点：这两种角度都对。对用户来说，有些场景有大致流程，结果更可控，成本也会更低。

戴雨森：因为用户要的是最后的结果，而不同的公司想实现这个结果，可能有各种不同的路径。有的灵活但成本高，有的固定但成本低。所以大家解同一道题，用不同方法都合理。

晚点：你说的最大趋势无疑还是 Agent？

戴雨森：是 AI 对生产力的提升，想让 AI 把生产力真的提高，就得让 AI 承担更多工作。像 Claude Code、Manus 等 Agent 产品，核心理念是人不做事，AI 做事。

有人说这是类似自动驾驶 L3 级别的产品，人不动方向盘，车自动驾驶。我们发现写代码的工程师一开始喜欢 Cursor，因为它还是让你在熟悉的 IDE 里面写代码，但 Manus 发现产品经理用 Cursor 去完成任务不怎么看代码，只是看右边的对话框，所以他们把对话框放到主要的位置，做出了一个更加适合非程序员人群使用的 Agent。

随着模型能力的进步，Claude Code 更极致，用户不能写代码，只能告诉 AI 你要做什么，其他的 AI 去完成。所以 L3 或 Agent 意味着 AI 去作为执行主角，而用户要学会当 AI 的好老板。

晚点：这对很多人来说挺难，是门槛。AI 做事不满意，你让它做几次都不行。

戴雨森：以前我创业时也这么想，所有事我都亲自做。后来发现这不是好管理方式，我应该赋能下属，让他们知道我要什么，让他们有主观能动性。

以后人类指挥 AI 可能也是这样，这可能是人类历史上第一次要培养一个工具。以前培养人很难，大部分人是被培养的，很少有人有能力或机会去培养一个下属。但现在每个人可能都要学会如何给 AI 下命令，如何培养 AI 去更好完成工作。

晚点：你提到 Manus、Genspark 这类通用 Agent 的用户群都比较广泛。你们怎么观察垂直场景里的 Agent？

戴雨森：通用是因为当前模型能力偏通用，但肯定会逐渐涌现某些垂直场景。

我觉得一个好的产品，最后肯定还是要有清晰的定位，要在某些领域做到绝对的第一名，才能拥有长期价值。或者说我们目标不是追求通用，而是从通用开始，逐渐发展收敛到一些核心场景。

技术革命的早期发展阶段，往往大家都在尝试，也不知道新技术适合做什么，最后看什么效果最好。例如蒸汽机刚被发明时，最开始是用于抽煤矿的水，后来发现用来驱动火车和纺织机更好。蒸汽机也是一个「通用技术」，但最后最大的价值可能来自几个具体场景。

我觉得现在 coding、做 PPT 这类的 office work、deep research 三者毋庸置疑是已经涌现出来的重要方向。

晚点：有个话题挺有意思。国内大家讨论通用产品，觉得这是大公司的必争之地。但跟国外投资人聊，他们反而对 Super App 的可能性更感兴趣，关心怎么打败 OpenAI 和 Google。

戴雨森：如果你有机会挑战大公司，那是好事，至少有资格参与奥运会，比不参与强。

很有意思的一件事是，Manus 出现后，有很多人说它没壁垒，用开源框架一个周末就能搞出来。但现在过了这么多个周末，还没看到任何一个类似的应用能真正做好的。

我觉得在全球市场，大家对真正的创新还是尊重的，不会直接复制完全一模一样的产品。可能会借鉴交互或呈现思路，比如 AI 在干活的表现形式，但不会直接像素级复制。在全球化竞争里，先发优势会带来很多口碑和传播优势，这也是对创新者的建奖励。

每月 1000 美金的 AI 产品订阅

晚点：你算过现在一个月在 AI 产品订阅上花多少钱吗？

戴雨森：大概接近 1000 美金。Manus 是 200 美金，Genspark 是 200 美金，ChatGPT、Gemini、Grok 这些也都差不多各 200 美金。我买的基本上都是高级方案。

我一直有个理念，新产品就要多试试，很多时候花点钱试一试并不过分。很多 AI 产品的革命之处不能只看报道，得亲身去用。当你能看到一个未来的时候，你会产生很多的灵感。

我们三月份就观察到，Manus 上线后推理用量暴涨，Agent 产品的 token 用量相比 Chatbot 是显著增长。当时二级市场很多人还在质疑英伟达，觉得哪怕全世界所有人都用 chatbot，推理需求也根本没那么大，用不了那么多算力。

但其实这就像拨号上网时代，一开始所有人都在聊 QQ，不需要那么多带宽。但有了宽带网之后，大家就要在线上看 4K 视频了。模型能力越强，可以解锁的场景越多，token 使用就越多。

晚点：2023 年，黄仁勋在英伟达内部讲话中说，他们的市值目标是 2 万亿美元。当时英伟达刚刚突破 1 万亿。我们还在讨论他这口气是不是太大。结果今年已经突破 4 万亿了。

戴雨森：他很快可能会到 5 万亿。因为 token 向生产力的转化趋势才刚刚开始。

这就像火车开动了，就不会突然又停下来了。我们现在还在不断发现 AI 新的使用场景。比如说一个工程师原来一天可以写 100 行代码，现在有了 Cursor、Claude Code，可能写的代码是原来的 10x，能解决更多以前没想过要解决的问题。又比如有了 ChatGPT 和 Manus，你会问的问题也会变多。

很多以前不知道该问谁的问题，现在可以用 AI 来解决。给用户带来的生产力提升，导致用户更愿意付费。

晚点：目前生产力场景的 token 消耗是非常高的？

戴雨森：生产力可以以 10 倍，100 倍的速度增长。和 AI 闲聊再怎么聊，一天就那么多时间，这是我们以前讲的 attention is all you need。如果你要的是用户注意力，它是有限的，并且是和抖音，Tiktok、小红书一起去争夺的注意力。

但在生产力场景，用户需求的上限很高，可以从问一个问题变成问 100 个问题，需要的算力可以涨 100 倍。

晚点：而且单位时间内 token 消耗的复杂度也在迅速提升，比如我要消费的内容、视觉信息可能也变得更复杂。

戴雨森：在未来你可以问 AI 之前没想到的非常复杂的问题，我给你举个很简单的例子。比如美股二级市场的朋友，在财报季时一天可能要关注五六家公司发业绩。凌晨四点起床看财报数据、代入模型做对比、听电话会议、分析 CEO 的展望，都是他们的日常。

原来他们不可能同时听多个财报会，只能靠招更多人或挑重点去选择。但现在有了 AI，虽然目前还不能完全跑通全流程，但 6-12 个月内就有可能让一个分析师同时覆盖 50 家股票的财报。

AI 可以帮他们看财报、听电话会议记笔记、回答事前准备好的问题、总结 CEO 回答、写报告。这些原来因为「做不到」才没放到你的工作时间表里的事情现在 AI 能完成了，需求就自然增长了。

就像飞机出现之前，没有人会说「我今天要飞美国出差」。但飞机一旦存在，新的需求就出现了。AI 也一样，它让你开始做那些你原本不会想做的事。

晚点：时间是有限的。但单位时间内娱乐内容的复杂度、感官刺激可能会大幅提升，这也是以前难以想象的。

戴雨森：对，确实难以想象。但我想说的是，生产力的价值是直接可衡量的。比如 AI 帮我赚 100 块钱，我为它付 1 块或者 10 块。

而且我们观察到一个很有意思的现象：当 AI 按 token 用量计费后，很多人是希望用得更多的。因为它确实在帮你完成工作，比如帮你写了更多代码。

这本来就是你自己要做、要花时间花钱雇人做的事，现在 AI 帮你完成了，它就有价值。

硅谷 Acqui-hire 抢人大战

晚点：关于最近这场「抢人大战」你有没有什么看法？

戴雨森：确实最近有很多人被挖走，也有人接到电话但没去。大量优秀人才被 disruptive（颠覆性）级别的薪资挖走。

这种挖角不管是对被挖团队，还是 Meta 自己原有的团队，都是非常大的冲击。在硅谷几乎所有顶尖公司都在发生类似动荡。被挖的人所在团队军心难免动摇，留下的人也开始质疑：是不是自己也该涨薪？

这种高薪挖人当然是人才价值的体现，但越是顶级人才，也越需要时间和环境来磨合，才能真正形成合力。历史上失败的例子也很多，所以对于这些组织来说，这既是机会，也是一场挑战。

晚点：你觉得抢人竞争算良心吗？

戴雨森：我觉得这也是体现了创始人的精神，就是他愿意不惜代价去争取人才。如果花钱能解决的事，我就花钱办。我觉得这也反映了人才确实很重要。

晚点：压力主要是在硅谷吗？不过从另一面看，这也给创业公司提供了不错的退出机会。

戴雨森：但是这种退出可能不够大。有的人觉得公司卖个几亿美元就挺好，有人则想做千亿美元公司。创业公司也需要更多弹药去和 Meta 这样的大厂竞争。比如说 Cursor 之前融了很多钱，我们一度还觉得融这么多钱做什么，现在看到他们要面对的是更多钱补贴用户用 token，招人也要更高成本，所以融资更多很合理。现在竞争无论是补贴还是人才都升级了。顶级人才也有很多选择，对很多创业公司来说，加入战局的门槛和水位都在提升。

晚点：硅谷这种人才收购（Acqui-hire）很流行，主要是为了绕过反垄断限制，也反映了竞争多激烈。

戴雨森：大家都想加快节奏，因为钱太多了。几家巨头账上都有大量现金，这些钱投下去，如果能用钱换时间和竞争优势，对他们来说就是简单的事情。

题图来源：真格基金

免责声明：上述内容仅代表发帖人个人观点，不构成本平台的任何投资建议。

晚点播客丨IMO 金牌、Kimi 翻盘、抢人大战，与真格戴雨森复盘 2025 AI 中场战事（下）

精彩评论