从 “活人感” 缺失到体验基准打造：对话式智能体的进化之路_老虎社区_美港股上老虎

从 “活人感” 缺失到体验基准打造：对话式智能体的进化之路

2024年的夏天，一场关于 WebRTC 与生成式 AI 的 PPT 任务，开启了45天的疯狂冲刺，最终诞生了第一款 To B 的 Realtime API 。这段经历不仅颠覆了对硅谷工作文化的认知，更揭示了 AI 时代产品开发的残酷法则：速度、稳定性和实验精神。本文将深入探讨对话式 AI 的生死线、技术路线选择背后的战略思考，以及在技术狂飙中如何保持人性的深刻洞察。

前段时间的2025 AI 产品大会中，声网 AI 产品线负责人姚光华认为，下一代AI助手必须具备“人格化”特征。通过情感识别、多轮对话记忆，现代 AI 正在获得接近真人的“活人感”。但他同时强调，必须建立统一的体验基准，让这种“人味儿”质量可控、体验可预期。本文为姚光华现场分享精华内容，分享给大家：

2024年的夏天，上海热得反常，据说是90年来最热的一个夏天。

八月的一天中午，老板的电话来了。“ Colin，停下你手头所有的事，”他在电话那头说，“帮我写一个 PPT 。”

没有解释，只有紧迫。我推掉了下午和晚上所有的安排。那个通宵，我只写了三页 PPT ：关于通信协议的三次迭代，关于开源 WebRTC 与商业 RTC 的系统性比较，以及一张产品架构大图——关于如何让一个大模型开始“说话”。

凌晨五点，会议结束，我回到家。这并非终点，而是接下来45天疯狂加班的起点。那45天的极限冲刺，换来的是国庆长假第一天，我们与 OpenAI 共同面向世界推出了第一款 To B 的 Realtime API。从那天起，开发者终于可以在自己的应用里，真正接上对话式智能体。

这次经历留给我最深的印记，不是技术参数，而是一种认知的崩塌与重建。站在2025年的路口，我意识到：地球是圆的，硅谷也可以是卷的。

01 硅谷没有“松弛感”

如果你在工作的强度上有 K 线图，会发现一个惊人的事实：所有 AI 时代的产品和研发，在2024年末到2025年初，K 线都是拉满的。我们天天都在加班。

2024年的圣诞节，OpenAI 连开了12天的发布会；今年的春节，DeepSeek 在陪全中国人民聊天。那个曾经被我们视为“ WLB ”（工作生活平衡）典范的硅谷，变了。世界上最优秀的那一波人，已经彻底放弃了所谓的松散感。因为所有人都看到了一张通向未来的、确定性的船票。

当未来是确定的时候，犹豫就是最大的成本。

02 iPhone 时刻：不是发布，是触碰

对于产品经理而言，什么是“对话”？如果不谈技术，只谈体验，智能体的“ iPhone 时刻”到底是什么？

大众认为是初代 iPhone 的发布会。但我认为，真正的 iPhone 时刻，是乔布斯用手指在屏幕上放大照片的那一瞬间。那是人类第一次用自己的器官，直接与数字世界交互。

回顾交互的历史，我们其实一直在画圆：从 API 时代开发者用代码交互，到 GUI 时代用界面交互，再到 Prompt 时代用文本交互。今天，我们终于可以用声音与智能体交互。未来加上视频和数字人，连小朋友也可以和虚拟生命体对话。

交互的终点，是回到我们最原始的能力——对话。对话不仅仅是界面，它本来就是人类最古老的操作系统。

03 别听错，别失控，别让人等

我们在南美洲的一个电商客户那里，看到了一个真实的黑色幽默。一个用户非常生气地对着我们的智能体吼道：“为什么你是一个人，却装成 AI 跟我对话？我要见你的主管！”

对于普通用户，人与 AI 的界限正在模糊。但在工程实践中，现在的 Voice Agent 生死线只有三条：别听错，别失控，别让人等。

人类对延迟的感知是残酷的。面对面聊天，我说完你回复通常在200毫秒以内，这是“活人感”的基准；电信通话的金标准是400毫秒；而在线交流加上网络传输，通常在600毫秒左右——在这个区间里，人类其实已经做了“我在打电话”的心理补偿。

但现在的 Voice Agent 动辄延迟一秒以上。我每天早上问小爱同学天气，默认要等3秒。这时候，我在等的不是一个“对话”，而是一个系统的“反应”。我们已经把延迟压到了650毫秒，但这还不够，还得继续压。

至于技术路线，技术圈虽然在吵“端到端”（End-to-End）很性感，但在真正大规模商用的战场上，级联（Cascade）才是王者。

原因很简单：当用户投诉体验问题，端到端是黑盒，你根本不知道哪里出了问题；而级联模型，我看一眼日志就知道是听错了还是说错了。更现实的是，如果你的产品明天要出海中东，用级联换个模块就能支持阿拉伯语；用端到端？对不起，请从头开始训练模型。

在人机对话里，稳定性本身就是最高级的用户体验。

04 像做实验一样做产品

与 OpenAI 合作的过程，也是我重塑产品观的过程。传统的组织运行方式在 AI 时代已经失效了。

我们的产品从3月发布到10月底，迭代了9个版本；到今天，已经迭代了11个版本。核心在于快速决策机制——只要一个决策不是“单向门”（做了就无法回头），那就尽管去做实验。

对于在座的产品经理，如果你们正在写明年的年度规划，我的建议是：别写了。

我们的团队从不要求长期的产品规划。我们以6个月为锚点对齐大方向，只做2个月的规划，列出每两周的交付清单。每日发布，双周承诺，两个月路线图。这就是 AI 组织的生存法则。三人成军，就可以快速做一个实验。成功了纳入规划，失败了快速掉头。

如果可以用实验来验证，就不必等待共识。

05 Stay Human

最后，我想聊点非技术的话题。

木头姐（Cathie Wood）的报告说，AI情感陪伴产品的空间将有5000倍的增长。未来的 AI 陪伴，不会局限于手机屏幕，只要有麦克风和扬声器，任何设备都可以是一个陪伴者。

但我有一个做人机交互的朋友，最近把自己的社交媒体昵称改成了“ Stay Human（做个人吧）”。

这让我触动很大。

过去两年，我们谈论了太多的 AI ，太多的 Agent ，太多的模型参数，以至于我们对人类自身的关注反而变少了。

AI会重塑世界，而内观会重塑我们。在理解 Agent 的同时，别忘了理解我们自己。

毕竟，技术是为了让我们活得更像人，而不是更像机器。

免责声明：上述内容仅代表发帖人个人观点，不构成本平台的任何投资建议。

推荐
最新

暂无评论

从 “活人感” 缺失到体验基准打造：对话式智能体的进化之路

01

硅谷没有“松弛感”

02

iPhone 时刻：不是发布，是触碰

03

别听错，别失控，别让人等

04

像做实验一样做产品

05

Stay Human

评论

热议股票