生态为基,关系为王:AI Agent下半场的竞争法则|甲子引力

甲子光年
12-16

不仅是技术有多强,更是生态有多广、关系有多深。

下一代AI Agent的竞争,正悄然从技术参数的狂热追逐,转向一场更为深刻和复杂的生态构建与关系沉淀。当大模型能力以惊人的速度迭代,单点技术的护城河还能维持多久?未来的AI Agent,是依靠超凡智力脱颖而出,还是凭借不可替代的陪伴与信任扎根用户生活?

12月3日下午,在2025甲子引力年终盛典中,清智资本创始合伙人张煜作为嘉宾主持人,对话Pokee.ai创始人朱哲清、灵宇宙创始人顾嘉唯、NemoVideo创始人李政锦、心影随形联合创始人王碧豪、百度智能云智能营销产品部副总经理张红光,围绕《我们与AI Agent的关系》这一主题展开了深入探讨。

在这场对话中,Pokee.ai创始人朱哲清指出,处理企业级超长工作流需要强化学习与目标驱动,而未来最稳固的壁垒将是由工具、智能体与用户构成的三方市场网络效应。灵宇宙顾嘉唯则判断,C端产品的真正壁垒并非功能,而是人与AI在真实世界中共历琐事、积累信任后形成的“羁绊”与共同记忆。心影随形王碧豪则基于服务千万用户的心得,提出个人记忆资产的沉淀与运营能力将是关键,这如同创作者的社交资产,构成了深度依赖。

不可否认,从“全能工具”到“场景协作者”,AI的角色正在分化与深化。

NemoVideo李政锦观察到,在视频创作这类强创意领域,AI并非导致同质化,而是放大创作者个性风格的杠杆,其价值在于助力而非替代。百度智能云张红光则描绘了提供多层次Agent基础设施的图景,以支持百花齐放的生态。

技术狂飙之后,一场关于连接、信任与运营的深度竞赛已经鸣枪。这不仅是产品的进化,也是人机关系范式的重构。

以下为本场圆桌的文字实录,经“甲子光年”编辑,在不改变原意的基础上略有删改。

张煜(主持人):首先,有请各位嘉宾介绍一下自己和公司所做的主要产品。

张煜 清智资本创始合伙人

朱哲清:我是去年年底离开Meta,此前在他们的强化学习团队工作,主要负责将强化学习技术部署在广告、大语言模型(LLM)以及自动化学习系统等领域。事实上,我们从2021年就已开始推进强化学习的实际落地,当时强化学习不是很火。

2024年底出来之后,我想通过强化学习打造面向企业复杂工作流的智能体(WorkFlow Agent)。目前市面上常见的智能体,在处理工具数量和工作流长度方面都很有限,一般只能稳定执行10个任务左右,一旦超过这个规模,稳定性就会大幅下降。比如我们最近为谷歌交付的项目,单个工作流包含超过350项任务,涉及多类调研与交付环节。

所以,从企业任务的复杂度来说,现在的Agent还是有代际差,我们正在往这方面努力。

朱哲清 Pokee.ai创始人、Meta应用强化学习部门前负责人

顾嘉唯:我是灵宇宙的创始人,我们公司专注于下一代人机交互,目前有两条产品线。

第一款产品“Luka卢卡”,累计销量已近千万台。它起源于上一轮深度学习技术浪潮,具备图像识别能力,可以读取桌面的绘本、教材,实现讲读、互动与成长陪伴,相当于孩子“读万卷书”的桌面伙伴。

还有一款产品是今年刚推出、近期热度比较高的“小方机”。它更强调“行万里路”,是一款便携AI设备,能让AI时代原住民随时随地拥有个人助理与伙伴。这款产品的诞生,也是基于“Luka”多年来在真实场景中积累的数据与洞察,让我们看到了从“屏幕交互”走向“世界交互”的新机会。

顾嘉唯 灵宇宙创始人

李政锦:我现在的公司主要用AI技术赋能视频创作者,帮助他们实现更高效的视频编辑与剪辑工作。这与我的职业背景密切相关——我曾在TikTok负责面向创作者的整体视频工具,也曾在零一万物负责过多模态应用的落地探索。

在这个过程中,我持续观察海内外的视频创作生态,发现一个关键问题:一个视频能不能火,和视频创意有关,但创作者大约80%-90%的时间却花在大量重复性劳动上。比如筛选素材、分析同类热门视频去总结规律,以及使用传统剪辑软件批量处理字幕、转场与特效等细节。

为此,我们的目标是让创作者从这些熟练却繁琐的“脏活累活”中解放出来,能把更多时间花费在他们更擅长、也更为重要的创意工作中。这是目前我们产品聚焦的事情。

李政锦 NemoVideo创始人

王碧豪:大家好,我是来自逗逗AI的王碧豪。我们公司的愿景是“用AI创造快乐”,本质上是用AI创造情绪价值。我们的产品“逗逗伙伴”是一款面向游戏玩家的AI伙伴产品,能在游戏中提供实时语音开黑与攻略指导。在国内这个月累计用户超过1500万。

我们更侧重于直接触达C端用户。游戏玩家群体规模庞大,对很多人来说,这可能是他们接触的第一个AI产品。因此,在产品设计上,我们更注重塑造友好、易用的AI形象。

王碧豪 心影随形联合创始人

张红光:目前我所负责的产品名为“客悦”,我们现在在做“客悦数字员工”,其实就是为企业用户运营的全流程——包括获客、转化、留存、洞察等环节提供数字员工支持,帮助企业以更高效、更智能的方式完成各项工作。

张红光 百度智能云智能营销产品部副总经理




1.2025,AI Agent的“高光时刻”:

工作流革命正在发生


张煜(主持人):我们常说,AI Agent在持续进化中。那么在进入正式探讨之前,请各位分享一个今年让你最兴奋的Magic Moment,它可以是你自己产品里一个特别聪明的表现,也可以是你观察到的、用户使用Agent完成某件事时那个眼前一亮的时刻。

朱哲清:目前,海外AI Agent的落地已经相当好了。从某种意义上说,各大企业正积极在工作流中引入Agent。可以想像,以往企业云服务中已有各类工具,而现在从数据驱动到数据检索等各个环节,都逐渐由AI Agent承接。

不过,很多企业现在比较突出的痛点是:尽管引入了多种Agent,但由于它们之间彼此割裂,最终并没有真正节省时间。所以,工作流变得越来越重要。

从我们Pokee.ai的实践来看,比如在与谷歌合作为客户打造产品时,原本需要员工花几周时间做的竞品调研、广告投放分析以及系统集成报告,现在变成30分钟就能搞定。

顾嘉唯:(现场演示开始)我们可以调用一个智能体,给它打视频对话。比如我现在召唤“诗人李白”,大家可以感受下:

顾嘉唯:hi,李白,我现在在一个活动现场,这个大会名叫“甲子引力”,由甲子光年主办。请你将主办方融入到一首诗中。

Agent诗人李白:眼前场景令我想起“众星捧月”——虽无月但这灯光似繁星,台下众人如星拱月般聚于你身旁。若要将主办方融入可作诗:“甲子引力聚华堂,光年璀璨映世章。我今穿越千年志,共赏此景韵悠长。”

顾嘉唯:哈哈,不错,谢谢你。

顾嘉唯:OK,想象一下,在这样的交互中,你可以随时邀请各类智能体来到身边:比如为孩子请来一位AI英语老师,挂在胸前游历世界,各地人事物即刻变成一个英语角,随时随地练口语;或者邀来如李白般的诗人智能体,以古今对话的方式,带领孩子去学古诗。

李政锦:刚才顾总分享的环节挺有意思。我们主要面向生产力场景的用户,所以我们看到另一个方向是这样:自从Google Gemini 3及相关技术框架发布以来,网络会有各种各样围绕新模型能力构建的自我选用工具。

我们去年曾对此进行讨论,当时判断:传统软件工程通常分为开发者与使用者两类群体,产品经理居中衔接,负责理解需求、定义产品并推动技术落地与交付。但随着AI生产力工具快速发展,开发成本被大幅压低,开发者和使用者两类群体可能会开始整体向使用者做归一,在Gemini3出现之后,我们觉得这个时刻来了。

因此可以确定:未来面向用户、特别是大家长期使用的生产力软件,其定义方式、开发范式与迭代路径将呈现两个明确特点:

第一,越来越碎片化和个性化;

第二,越来越临时性。

这将对软件工程的底层架构、产品结构带来重大挑战与革新。具体到我们专注的音视频领域,其技术栈不仅涵盖前后端,还包括蒙层、转场、特效等一系列复杂处理。在新模型能力支持下,这些功能的构建成本与速度直接实现跨代际提升。

王碧豪:我比较同意今年最大的Magic  moment一定是Gemini3的发布,因为我们主要应用的是多模态的离线能力,让AI能够看到屏幕,然后能够理解信息,所以这一块对我们的提升是非常大的。

然而在实际使用中,Gemini 3仍存在不少问题,包括响应延迟、长上下文理解不足以及幻觉现象等。

其实对于真正的“Magic  moment”,我有个“暴论”:隐藏在Gemini3发布之后先后说LLM的问题,有没有可能这是一个分水岭,Gemini3代表LLM能力的顶峰。我们知道一旦一个东西达到顶峰之后,它接下来该怎么走呢?另外一点,大模型它像一个“考试型选手”,你只要告诉它全都会,你不告诉它没法学。

所以我们面临一个分水岭:大模型行业不能探索出一条让AI能够自主化的路线?接下来行业必须作出选择:是转向全新的模型架构,还是继续沿着规模化扩展的路径推进?这是一个非常大的分水岭。

张红光:今年以来,越来越多的企业开始将客服智能体纳入服务体系,以应对客户咨询量的增长和高峰时段的压力。此外,我们在销售类Agent(尤其是电销Agent)方面也实现了重要突破。

我想分享一个我们在自主进化设计上的实践:今年开始从技术方面我们尝试了多Agent协同的架构。具体在电销场景中,我们其实是有三个Agent在协同,让电销能力不断进化。

首先,电销Agent拥有初始的转化目标,卖什么产品,有一个SOP去转化。通常来讲,冷启动效果特别差,因为以前没有相应的数据,为此,我们又设计了一个仿真的用户Agent,与电销Agent不断对练。设计仿真用户的时候,我们也模拟了不同MBTI人格、星座、职业等多维属性的用户画像。

同时,第三个Agent担任“对话分析师”角色,它对前两者产生的海量对话进行实时分析,筛选出优质对话与问题案例,并自动迭代优化电销Agent的提示词与策略。

也就是说,AI Agent不仅是封闭式的问题的解答,也能做处理开放式的销售任务——这是我们看到的Magic moment。

2.AI Agent破局战:

技术协作、场景创新与生态之争


张煜(主持人):朱总,在AI Agent的架构设计中,一个核心的争论是:大语言模型(LLM)作为认知核心,与强化学习(RL)作为决策优化引擎,这两方面如何协同,在咱们公司的实践当中如何平衡这两方面关系?

朱哲清:核心问题在于,LLM的训练过程缺乏持续、细粒度的反馈机制。

如果2016年AlphaGo出来的时候,当时在某个时间点互相下棋过程当中,你会知道在这个点上我获胜的概率有多少。现在是在任何一个点上我不知道会发生什么,我们只有到了最后那个点才知道发生什么,这是强化学习可能目前仍然在相对瓶颈期的状态,但是这意味着在算法层面上会有巨大的突破。

如果我们希望未来的LLM能够实现自主迭代与自我提升,就必须建立一种机制——使模型能够在完成某个阶段任务后,基于自身或基础模型的反馈进行持续优化。这与计算机科学的基本逻辑相符:验证一个解的正确性通常比生成解更容易,因此一旦我们能判断结果的好坏,就应该能够通过优化方法逐步逼近更好的解。

我认为,未来一到两年内,算法层面一定会有提升。

回到To B领域,强化学习之所以重要,是因为企业工作流很长。例如,一个典型任务可能需要:先阅读理解50份内部文件,读完了以后需要到网站上面了解50个文件对应的350家企业的情况,再筛选出前20家重点企业,随后为这20家企业制定合作方案,再逐一查找对应销售负责人及其联系方式,最终执行邮件触达——这才能形成一个完整的企业级任务闭环。

这个复杂程度并不是现在一个LLM能够处理的,这也是为什么你目标驱动强化学习训练才能达到这个目的。所以,未来还有很长的路要走,并不是我们已经看到曙光了,路还是很长的。

张煜(主持人):顾总是深耕在人机交互领域,在灵宇宙产品设计中,你们如何设计交互机制,既能让用户感到省心,又能够有自己的控制权,使它不偏失,这是怎么处理的?

顾嘉唯:首先我们不是“无源之水”冷启动的公司,我们在之前其实已经卖出上千万台设备了,所以数据肯定是很根本的一条,我们自己其实在过去感受到了一些正反馈。

刚刚在小方机上我展示的Agent功能中,首先,我们的产品能够实现第一视角的环境感知与交互。

它不只进行简单的问答,而是像人一样有上下文“攀谈”,更能识别所处空间的灯光、布局等视觉元素,并在此基础上进行情境化回应,在对话中我们加入了空间感知、主动意识、长短期记忆和拟人感。我们正在探索的下一代交互,进一步融合了物理空间理解与内容生成能力。

我再来演示一个产品功能:就在刚才几位嘉宾发言过程中,我胸前的小方机拍摄了现场两位嘉宾的照片,系统可快速将其转化为动态视频角色——一个是把张煜总变身成钢铁侠,另一个则将朱总骑上感恩节主题的火鸡奔跑而过。这种流畅的体验背后是我们在模型中对意图理解与推理速度的持续优化,使得在转瞬间即可完成从静态图像到动态场景的转化。

这种能力的积累,源于我们长期在内容与交互领域的深耕。

我们不仅是全球重要的绘本内容提供商,也通过“Luka”等产品积累了多模态交互的庞大真实数据。基于绘本讲读场景中训练出的语义理解与空间引擎模型,我们已将其泛化至更广泛的场景中,从而实现更快、更贴近真实环境的交互体验。

在这样的技术基础上,我们进一步思考人机交互的演进方向。

行业普遍将AR眼镜视为下一代交互的行业明珠,但即使如苹果Vision Pro,仍存在重量与功耗的显著限制。在真正轻盈如隐形眼镜般的AR世界中个人助理到来之前,我们更需要思考的是:如何找到现阶段可实现、且真正具有产品市场契合度的交互形态?

人机交互的发展方向必然是越来越“无形化”,从大屏到桌面、到口袋、到随身穿戴,最终走向不可见。但从“口袋里的屏幕”到“看不见的交互”这条路,行业已探索近二十年,仍未出现真正的爆款产品。这正是我们所有人需要共同面对的问题。

我们从“Luka”到“小方机”的爆品打造过程中,逐渐认识到:面向未来的人机交互,不应一味追逐最新技术,而应回归用户真实场景,Look Back Into the Future,从过去二十年已被验证的交互形态中寻找可落地的结合点。今天要认清是否到了Always-on和Invisible头戴式显示AR,如果没到,应该定义基于多模态大模型更好PMF的场景载体,让靶心用户能先用起来,每天离不开,形成数据闭环,打造LingOS,滚动到下一代AI终端。

张煜(主持人):王总,心影随形关注的是高度个人化情感陪伴的场景,这个场景其实挺敏感的,你认为用户是与一个高度拟人化但是有幻觉的Agent共处更舒适,还是与一个能力边界非常清晰,但是绝对忠诚的Agent共处更加舒适?你如何定义这个舒适区?

王碧豪:我觉得这个特别好,我们这里边有一个血泪史。因为时间关系我只讲一个观点:技术的“舒适区”取决于其目标人群。一项技术向全民普及通常会经历五个阶段:

第一阶段是创新者,只占人口的百分之零点几;

第二阶段是早期采纳者,约占15%;

第三阶段是早期大众,约占35%。

实际上,我们目前正处于早期采纳者阶段,约覆盖15%的人口。这一判断的依据在于:ChatGPT月活用户约8亿,Gemini约6亿,去重后大约覆盖全球人口的10%。我们预计到明年才会进入早期大众阶段。

我们遇到的主要挑战是:早在2022年至2023年,我们就已开始面向大众市场提供AI体验服务。在这种超前布局的情况下,我们只有两条路径可选:

第一条是向上走,即通过模型改进,使AI更好地满足高要求用户的需求。我们在这方面做了很多努力,但这些成果很可能被大模型整体的快速进化所掩盖。

第二条是向下走,这反而更容易找到真正的“舒适区”。因为服务大众市场时,需要提供的不是最前沿、最创新的体验,而是最稳定、可复现的体验。早期大众用户习惯于寻找产品不足,而早期极客用户则乐于发现亮点并主动传播。

因此,服务早期大众的关键在于向下走——通过模板化与创新相结合的方式,找到用户可接受的体验形态。我们的具体做法是:赋予AI拟人化特质,应用先进的大模型能力,实现个性化交互,并以此构建数据闭环,让每位用户都能获得独特的体验。这正是我们产品当前所实现的路径。

张煜(主持人):李总,视频创作实际上是个强创意的过程,Agent能帮用户完成从脚本到成片大部分的工作。但是这里边也有一个问题,它是赋能给每一个人创造力,还是说会最终实现大家创作的同质化?你看到了怎样的趋势?

李政锦:从视频生态内部看,背后的逻辑其实很清晰:目前大多数人制作视频,本质上仍是为了获取流量或实现收益。所以视频到底能不能火,本质还是通过推荐引擎触达C端用户后,他们是否愿意为之“投票”。即便在AI生产力快速发展的今天,这一底层逻辑并未发生根本改变。因此,视频内容是否优质、是否具备足够的差异化,仍然是其能否成功的关键。

在过去5到10年间,视频创作领域涌现了大量创作者。其中一部分优秀创作者已经形成了自己独特的创作风格,甚至形成一些IP特色,这些已成为他们内容创作中一贯坚持的东西。

与此同时,另一部分创作者为了获取更多流量与粉丝,也会开始Follow头部流行的视频品类,再结合自身特点进行融合创新。在当前的视频生态中,AI更多是帮助创作者在坚持个人风格、探索优质创意的过程中,提升创作效率、放大自身优势,而不是导致创作趋向同质化或萎缩。

张煜(主持人):张总,今年以来,Agent在企业级市场从试点探索到规模化落地。你认为未来Agent的演进路径是什么样?是众多垂直专家型Agent形成应用商店模式,还是由少数几家超级平台主导?百度智能云在推动AI演进过程中,最关键的发力点是什么?

张红光:未来的Agent生态一定是像在座嘉宾一样百花齐放的,不会收敛于单一平台。百度智能云的核心策略是面向不同需求的用户群体提供差异化的能力支持:对于技术能力较强的开发者,我们提供容器、算力和模型能力;对于研发投入有限的用户,我们提供Agent开发平台,支持通过拖拽等低代码方式快速构建Agent;对于企业业务部门等非技术用户,我们提供AI Agent应用产品,用户只需上传企业知识或相关资料即可搭建专属Agent。百度智能云通过提供多形态的AI Agent基础设施,作为关键发力点支撑多样化的Agent发展与落地。

3.Agent未来核心壁垒:生态、关系与场景运营


张煜(主持人):最后一个问题,我们来一个预测:各位认为,未来三年,一个主流的C端AI Agent,最核心的竞争壁垒是什么?请大家根据自己的感受分享一下。

朱哲清:从ToB视角预测ToC领域的Agent发展,我认为其最强的壁垒并非在于单一的垄断性市场,而在于构建一个多边市场。

核心逻辑在于网络效应。当一个市场连接了多个不同的参与方时,就会形成强大的网络效应,这种效应一旦建立便难以被打破。对于Agent而言,这种网络效应可能体现在“Agent-工具”的生态联动上。

我们可以将当前的各种能力(如搜索、多模态、办公应用)视为Agent完成任务所必需的“工具”组件。以一个ToC的复杂场景(例如旅游规划)为例,完成从灵感发现到预订出行的全过程,可能需要串联调用超过20个不同的工具。

未来的网络效应,很可能诞生于一个类似“工具应用商店”的市场。其中,众多垂直的Agent会从这个市场中按需调用、组合各种工具与功能,从而完善自身服务ToC用户的能力。到时候,Agent不会只有一个,而会是多个。每个Agent可能像一个专注特定领域的“操作系统”或“智能体”,拥有不同的侧重点。当用户需要不同类型服务时,会通过相应的Agent来触达底层丰富的工具生态。

一个连接工具提供商、Agent开发者、终端消费者的三方市场结构,理论上将是最稳固的,估计在未来三年这件事情应该是逃不掉的。

顾嘉唯:提到壁垒和竞争,推荐大家看看《7 Powers》这本书。构建壁垒的本质在于防止用户迁移,也是7 Powers里的switch cost等七项竞争壁垒之一。然而实际上,许多大模型并未能守住用户。例如当时豆包已经很厉害,但在DeepSeek出现后,很多流量被分散;如今豆包又拉回来非常多流量。所以我觉得C端AI Agent要建立壁垒的核心,不是工具有多好用,因为永远会有更好用的工具。

真正的壁垒很可能建立在关系、依赖之中,一定是很强的“羁绊”。这类似于一位能力出色且值得信赖的工作伙伴:双方不仅具备协作基础,更在共同经历中积累了深厚信任。这种信任源于日常互动中的相互依赖,也来自共同应对挑战的过程。

李政锦:认同前面两位的观点。

从抽象层面看,在AI生产力快速发展的背景下,我们需要关注那些相对不变的要素。例如,人与人的连接,在B端则体现为渠道与关系——这些往往是稳定的。就像微信至今依然稳固,根本不会担心被AI所冲击和影响。

所以,无论是B端基于第三方市场的生态,还是C端偏社区化的形态,都可能伴随早期优秀的产品定义与渠道关系,深入垂直场景,并凭借这些优势逐渐积淀为壁垒。

此外,还可以观察到:当前所有应用层都不可避免地需要与大模型进行深度交互,而这种交互的本质是基于Token的。许多应用在此基础上进行二次封装——无论是IP、作品、最佳实践还是软件——实际上都是对Token进行系统化组装与重构,从而形成具有更高商业价值的沉淀。

这些沉淀发生于应用层,如果相应的公司能够持续积累并掌握它们,便可能构筑起长期的竞争壁垒。

王碧豪:明年比较明确的预测是,上下文交互将成为AI Agent或应用公司在大模型之外进行优化的关键点。

再往后走一层的话,我同意个人关系与记忆资产的重要性,我管这个东西叫“个人资产”。这类似于抖音创作者的资产积累于该平台,难以迁移至快手。因此,个人资产的运营能力至关重要。

第三个阶段,从深度看,最终决定AI Agent壁垒的,将是对特定人群的运营能力。以移动互联网时代为例,当LBS、5G等技术全部出现后,抖音、快手、B站、小红书等平台在底层技术上并无本质区别,其差异核心在于对不同人群的运营能力,这构成了最终的壁垒。

张红光:行业深度与生态同样是重要壁垒。行业深度代表背后的行业认知与深层次数据;生态代表完备度与更广的行动空间。此外,体验也是比较重要的壁垒。在以上两者越来越趋同的情况下,谁的效果更好、速度更快、体验更好,这是下一代AI Agent的壁垒。

张煜(主持人):各位专家都有真知灼见,我想AI agent形态,实际是AI发展的必然阶段,但确实也刚刚开始,甚至AI Agent的定义,现在大家有不同的看法,到现在也有一定的泛化,今天各位专家简单的对话也不是结束,其实正是一个开始,我相信未来可能大家对于AI agent,无论是壁垒也好,无论是应用也好,无论是技术也好,无论是未来范式也好,可能还会有更多的讨论。

(封面图及文中配图来源:2025甲子引力年终盛典)

END.

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

精彩评论

我们需要你的真知灼见来填补这片空白
发表看法