从 “活人感” 缺失到体验基准打造:对话式智能体的进化之路
2024年的夏天,一场关于 WebRTC 与生成式 AI 的 PPT 任务,开启了45天的疯狂冲刺,最终诞生了第一款 To B 的 Realtime API 。这段经历不仅颠覆了对硅谷工作文化的认知,更揭示了 AI 时代产品开发的残酷法则:速度、稳定性和实验精神。本文将深入探讨对话式 AI 的生死线、技术路线选择背后的战略思考,以及在技术狂飙中如何保持人性的深刻洞察。
前段时间的2025 AI 产品大会中,声网 AI 产品线负责人姚光华认为,下一代AI助手必须具备“人格化”特征。 通过情感识别、多轮对话记忆,现代 AI 正在获得接近真人的“活人感”。但他同时强调,必须建立统一的体验基准,让这种“人味儿”质量可控、体验可预期。本文为姚光华现场分享精华内容,分享给大家:
2024年的夏天,上海热得反常,据说是90年来最热的一个夏天。
八月的一天中午,老板的电话来了。“ Colin,停下你手头所有的事,”他在电话那头说,“帮我写一个 PPT 。”
没有解释,只有紧迫。我推掉了下午和晚上所有的安排。那个通宵,我只写了三页 PPT :关于通信协议的三次迭代,关于开源 WebRTC 与商业 RTC 的系统性比较,以及一张产品架构大图——关于如何让一个大模型开始“说话”。
凌晨五点,会议结束,我回到家。这并非终点,而是接下来45天疯狂加班的起点。那45天的极限冲刺,换来的是国庆长假第一天,我们与 OpenAI 共同面向世界推出了第一款 To B 的 Realtime API。从那天起,开发者终于可以在自己的应用里,真正接上对话式智能体。
这次经历留给我最深的印记,不是技术参数,而是一种认知的崩塌与重建。站在2025年的路口,我意识到:地球是圆的,硅谷也可以是卷的。
01
硅谷没有“松弛感”
如果你在工作的强度上有 K 线图,会发现一个惊人的事实:所有 AI 时代的产品和研发,在2024年末到2025年初,K 线都是拉满的。我们天天都在加班。
2024年的圣诞节,OpenAI 连开了12天的发布会;今年的春节,DeepSeek 在陪全中国人民聊天。那个曾经被我们视为“ WLB ”(工作生活平衡)典范的硅谷,变了。世界上最优秀的那一波人,已经彻底放弃了所谓的松散感。因为所有人都看到了一张通向未来的、确定性的船票。
当未来是确定的时候,犹豫就是最大的成本。
02
iPhone 时刻:不是发布,是触碰
对于产品经理而言,什么是“对话”?如果不谈技术,只谈体验,智能体的“ iPhone 时刻”到底是什么?
大众认为是初代 iPhone 的发布会。但我认为,真正的 iPhone 时刻,是乔布斯用手指在屏幕上放大照片的那一瞬间。那是人类第一次用自己的器官,直接与数字世界交互。
回顾交互的历史,我们其实一直在画圆:从 API 时代开发者用代码交互,到 GUI 时代用界面交互,再到 Prompt 时代用文本交互。今天,我们终于可以用声音与智能体交互。未来加上视频和数字人,连小朋友也可以和虚拟生命体对话。
交互的终点,是回到我们最原始的能力——对话。对话不仅仅是界面,它本来就是人类最古老的操作系统。
03
别听错,别失控,别让人等
我们在南美洲的一个电商客户那里,看到了一个真实的黑色幽默。一个用户非常生气地对着我们的智能体吼道:“为什么你是一个人,却装成 AI 跟我对话?我要见你的主管!”
对于普通用户,人与 AI 的界限正在模糊。但在工程实践中,现在的 Voice Agent 生死线只有三条:别听错,别失控,别让人等。
人类对延迟的感知是残酷的。面对面聊天,我说完你回复通常在200毫秒以内,这是“活人感”的基准;电信通话的金标准是400毫秒;而在线交流加上网络传输,通常在600毫秒左右——在这个区间里,人类其实已经做了“我在打电话”的心理补偿。
但现在的 Voice Agent 动辄延迟一秒以上。我每天早上问小爱同学天气,默认要等3秒。这时候,我在等的不是一个“对话”,而是一个系统的“反应”。我们已经把延迟压到了650毫秒,但这还不够,还得继续压。
至于技术路线,技术圈虽然在吵“端到端”(End-to-End)很性感,但在真正大规模商用的战场上,级联(Cascade)才是王者。
原因很简单:当用户投诉体验问题,端到端是黑盒,你根本不知道哪里出了问题;而级联模型,我看一眼日志就知道是听错了还是说错了。更现实的是,如果你的产品明天要出海中东,用级联换个模块就能支持阿拉伯语;用端到端?对不起,请从头开始训练模型。
在人机对话里,稳定性本身就是最高级的用户体验。
04
像做实验一样做产品
与 OpenAI 合作的过程,也是我重塑产品观的过程。传统的组织运行方式在 AI 时代已经失效了。
我们的产品从3月发布到10月底,迭代了9个版本;到今天,已经迭代了11个版本。核心在于快速决策机制——只要一个决策不是“单向门”(做了就无法回头),那就尽管去做实验。
对于在座的产品经理,如果你们正在写明年的年度规划,我的建议是:别写了。
我们的团队从不要求长期的产品规划。我们以6个月为锚点对齐大方向,只做2个月的规划,列出每两周的交付清单。每日发布,双周承诺,两个月路线图。这就是 AI 组织的生存法则。三人成军,就可以快速做一个实验。成功了纳入规划,失败了快速掉头。
如果可以用实验来验证,就不必等待共识。
05
Stay Human
最后,我想聊点非技术的话题。
木头姐(Cathie Wood)的报告说,AI情感陪伴产品的空间将有5000倍的增长。未来的 AI 陪伴,不会局限于手机屏幕,只要有麦克风和扬声器,任何设备都可以是一个陪伴者。
但我有一个做人机交互的朋友,最近把自己的社交媒体昵称改成了“ Stay Human(做个人吧)”。
这让我触动很大。
过去两年,我们谈论了太多的 AI ,太多的 Agent ,太多的模型参数,以至于我们对人类自身的关注反而变少了。
AI会重塑世界,而内观会重塑我们。在理解 Agent 的同时,别忘了理解我们自己。
毕竟,技术是为了让我们活得更像人,而不是更像机器。
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。


