2024年的夏天,一场关于 WebRTC 与生成式 AI 的 PPT 任务,开启了45天的疯狂冲刺,最终诞生了第一款 To B 的 Realtime API 。这段经历不仅颠覆了对硅谷工作文化的认知,更揭示了 AI 时代产品开发的残酷法则:速度、稳定性和实验精神。本文将深入探讨对话式 AI 的生死线、技术路线选择背后的战略思考,以及在技术狂飙中如何保持人性的深刻洞察。 前段时间的2025 AI 产品大会中,声网 AI 产品线负责人姚光华认为,下一代AI助手必须具备“人格化”特征。 通过情感识别、多轮对话记忆,现代 AI 正在获得接近真人的“活人感”。但他同时强调,必须建立统一的体验基准,让这种“人味儿”质量可控、体验可预期。本文为姚光华现场分享精华内容,分享给大家: 2024年的夏天,上海热得反常,据说是90年来最热的一个夏天。 八月的一天中午,老板的电话来了。“ Colin,停下你手头所有的事,”他在电话那头说,“帮我写一个 PPT 。” 没有解释,只有紧迫。我推掉了下午和晚上所有的安排。那个通宵,我只写了三页 PPT :关于通信协议的三次迭代,关于开源 WebRTC 与商业 RTC 的系统性比较,以及一张产品架构大图——关于如何让一个大模型开始“说话”。 凌晨五点,会议结束,我回到家。这并非终点,而是接下来45天疯狂加班的起点。那45天的极限冲刺,换来的是国庆长假第一天,我们与 OpenAI 共同面向世界推出了第一款 To B 的 Realtime API。从那天起,开发者终于可以在自己的应用里,真正接上对话式智能体。 这次经历留给我最深的印记,不是技术参数,而是一种认知的崩塌与重建。站在2025年的路口,我意识到:地球是圆的,硅谷也可以是卷的。 01 硅谷没有“松弛感” 如果你在工作的强度上有 K 线图,会发现一个惊人的事实:所有 AI 时代的产品和研发,在2024年
近日,声网与珞博智能共同申报的“珞博 AI 陪伴宠物 Fuzozo(芙崽)”项目,荣获“维科杯· OFweek 2025物联网行业优秀成功应用案例奖”。该奖项在物联网领域以高度专业性与行业影响力著称,旨在表彰当年具备创新价值与落地成效的卓越案例。 获奖背后,是项目所依托的坚实技术基础。声网为 Fuzozo 提供对话式 AI 引擎,通过低延迟、高稳定的实时互动技术实现自然流畅的情感交互。 Fuzozo 在 MWC 、 AWE 获认可,"618"首轮预售10分钟破千单。声网底层技术支撑成为 AI 伴侣机器人规模化应用的关键基础设施。 此次获奖,不仅是对珞博智能产品创新与市场表现的认可,也印证了声网对话式 AI 赋能合作伙伴、携手推动行业进步的模式取得了积极成效。 在 AI 陪伴型产品的研发中,情感陪伴功能的实现高度依赖于实时、稳定且拟人化的交互体验。这类产品的核心,往往在于能否在对话中给予用户如真人般自然流畅的回应——这正是声网为“芙崽”所提供的技术内核。在该赛道,实时互动已不再是“加分项”,而是决定产品温度与用户黏性的“生命线”。一旦出现响应延迟或交互中断,陪伴感便极易被打断,情感连接也难以维系。 声网为这种用户核心体验提供了全面而深入的技术支持。在软件层面,声网提供了对话式 AI 开发套件,其中的智能打断处理技术赋予了芙崽灵活的对话能力,能够根据用户的表达实时调整,极大地提升了交互的适应性与流畅度,告别机械式应答。 在硬件适配与性能调优方面,声网团队基于在对话式 AI 与硬件生态领域的积累,与珞博智能在芯片选型参考、功耗优化设计及外设功能协同等环节紧密协作,确保对话式 AI 在硬件平台上稳定、高效运行,为用户提供一致且可靠的体验。 此次获奖是双方合作成果再次获得的行业肯定。早在今年6月,该案例就在爱分析举办的第三届 AI 大模型高峰论坛上获评“ AI Agent
在对话式 AI 应用场景爆发的当下,开发门槛高、模型参数调优复杂、多供应商资源整合繁琐等行业痛点,成为了很多企业与开发者的烦恼。在 RTE2025 实时互联网大会上,声网正式发布了对话式 AI Studio 1.0,以 “零代码生产级智能体工厂” 为定位,直击行业痛点,凭借可视化编排、全流程模块化设计与生态化资源整合,让不懂代码、不熟悉音频参数的使用者也能在 1 小时内打造专属智能体,打破技术与效率的双重壁垒。 作为声网对话式 AI 全栈产品矩阵的重要一环,对话式 AI Studio 深度依托声网对话式 AI 引擎的技术底座,聚焦 “零门槛、高自由度、快上线运营” 的核心需求,构建起覆盖智能体编排、测试、部署、监控的全生命周期支持体系。其核心突破在于将复杂的技术转化为可视化操作:开发者可在一站式可视化界面中,轻松完成 Prompt 编写、ASR 与 TTS 模型选型、音色配置、数字人设置等全流程开发,无需关注底层技术细节。针对开发者普遍困扰的参数调试问题,平台提供预设推荐值与完整模板参数配置,开发者自己选择想用的功能和模块,就能做成自己要的对话式 Agent。 对话式 AI Studio 还为开发者提供了场景化模板与插件商店。场景化模板中心的场景选择兼具前瞻性与实用性,目前已上线智能客服、情感陪伴、英语陪练等热门场景模板,这些模板均源自对话式 AI 落地一年来经市场验证的高价值场景;后续还将逐步上线招聘专员、智能客服-电话外呼-服务满意度回访、智能助教-作业批改等更多细分场景模板,支持一键克隆快速启动项目。 插件商店则实现了第三方资源的一键选购与集成,涵盖国内主流 ASR、LLM、TTS 供应商资源,用户无需挨个注册账号,通过声网即可完成一键选购,高效组装。同时支持自有资源导入,满足个性化需求。平台与声网对话式 AI 模型评测平台深度联动,可根据延迟、成本等核心指
在今年的 RTE2025 实时互联网大会上,声网正式发布了对话式 AI 引擎2.0版本,该版本实现“优雅打断”的升级,支持过滤无语义附和词,让 AI 更懂开口的时机;支持预注册声纹识别,AI 能分辨是谁在讲话;新增 AI 电话外呼功能,支持 SIP/PSTN 电话,通过 AI Studio 编排或一行代码即可实现,稳定性高。同时新版本还支持国内外更丰富的 ASR 与 TTS 供应商,用户可根据自己需求选择想要的语种和音色。 对话式 AI 引擎最新产品架构图 优雅打断2.0 让 AI 更懂开口时机 在人与人对话中,经常为了表示认同会发出“嗯”、“啊”、“是的”等常见的语义附和词,但在 AI 对话中,用户并不希望因为自己无意中的一些语义附和词,让 AI 提前响应,这样会给对话体验造成比较割裂的体验感,在教育、会议等很多场景也有很多词需要提前过滤,不需要被 AI 响应。 基于此,对话式 AI 引擎2.0版对“优雅打断”功能进行了升级,不仅支持过滤对话中无语义的附和词,自动识别“嗯”、“啊”等对话附和词,避免误触发响应,还可以过滤自定义的文本,以适应不同业务场景需求。 预注册声纹识别 让 AI 知道是谁在说话 在对话式 AI 中,多人同时与 AI 互动的场景将会越来越多。家居场景中,父母与孩子都会与 AI 互动,孩子不希望聊的内容被爸爸妈妈发现,所以希望 AI 能够区分自己与父母的身份,在和 AI 对话时可以产出不同的内容。 针对这样的需求,声网对话式 AI 引擎2.0 上线了预注册声纹识别,用户仅需4-10秒钟的有效语音注册,可以快速建立声纹模型,对话的过程也是实时进行比对,基本没有任何体感延迟。且整个过程不存储任何声纹数据。通过提前注册不同人的声纹,不仅能让 AI 分辨出多说话人声纹,知道是谁在说话。还可以针对不同任务的标签输出不同的对话策略与内容推荐,无
近日,声网先后获得两项行业重要认可——获评头部媒体36氪 WISE 2025商业之王“2025年度 AI 应用场景突破企业”与芥末堆 GET 教育科技大会“教育科技创新尖峰奖”。这标志着,声网推动“ RTE + AI ”技术深入产业肌理、转化为切实价值的实践,获得了跨领域的双重验证。 横向破圈:定义产业生产力,入选36氪「年度AI应用场景突破企业」 入选36氪“ WISE 2025商业之王”的“年度 AI 应用场景突破企业”,其核心准绳在于 AI 能否跨越概念,转化为真实的产业生产力。这要求企业不仅是技术专家,更是深入行业的“行动派”,能将技术落地为可验证的商业效率。声网的此次入选,正是对我们以 “RTE+AI ”构建通用商业基座这一务实路径的权威肯定。 在 AI 硬件领域,注入“有记忆的对话灵魂”:从能够记住孩子的喜好、能讲述定制化睡前故事的口袋机器人,到能完成从设置闹铃到预定机票等多样化任务的家庭助手,其背后稳定、拟人且连贯的实时互动能力,正由声网对话式 AI 引擎支撑。这标志着智能硬件正从集成智能体,向具有情感交互能力的伙伴演进。 在 AI 客服场景,实现“从应答到解决”的跨越:搭载声网对话式 AI 引擎的智能客服系统正从成本中心转变为价值创造者。当用户来电咨询时,不仅能准确理解意图,更能针对业务给出个性化建议或引导办理。这不仅将平均通话处理时长缩短了40%,更将大量人工座席从重复性查询中解放出来,专注于高价值服务,实现了效率与体验的双重升级。 在 AI 陪伴场景中,提供“深度的情绪共鸣”:在情感陪伴与社交应用中,通过对语音语调、语速及内容的实时多维分析,搭载声网解决方案的虚拟伴侣可以更细腻地感知用户情绪状态,并提供陪伴式倾听或舒缓引导,让技术成为可靠的情感连接器。 纵向深耕:重塑教学体验,荣膺芥末堆 GET「教育科技创新尖峰奖」 在作为行业风向标
北京时间11月20日,声网母公司 Agora, Inc. ( NASDAQ:API ) 公布了2025年第三季度财报。财报显示,第三季度 Agora, Inc. 总营收3540万美元,同比增长12%。公司指引四季度收入区间为3700至3800万美元,同比增长7.2%—10.1%。 在美国通用会计准则(GAAP)下,Agora, Inc. 第三季度净利润为274万美元(约合人民币2000万元),净利润率 7.8%,继2024年Q4同比扭亏为盈后,已连续四个季度实现 GAAP 盈利。Agora, Inc. 创始人兼 CEO 赵斌表示, “我们欣然宣布,公司连续四个季度实现美国通用会计准则(GAAP)下的净利润,这得益于营收双位数同比增长和利润率的持续提升。我们的核心实时音视频云业务正呈现强劲复苏态势,正迈向疫情后首次全年营收增长,为公司构筑坚实而可持续的盈利基础。 与此同时,我们正大幅增加在对话式 AI 领域的投入。我们最新推出对话式 AI 引擎2.0版本与对话式 AI Studio,旨在帮助开发者更轻松地构建高度拟人、交互自然的语音对话智能体。来自全球客户的早期反馈令人鼓舞,随着应用场景与潜在客户的持续拓展,我们相信这将成为明年增长的重要动力。” 在现金储备方面,截至2025年9月30日,Agora, Inc. 现金、现金等价物、银行存款及银行理财产品为3.74亿美元。 对话式 AI 产品全栈发布 加速 RTE+AI 创新场景、应用落地 本季度,在AI技术驱动及新场景催化下,声网不断打磨、升级对话式 AI 能力,陆续发布了对话式 AI 开发套件 R1-4G、对话式 AI 引擎2.0、对话式 AI Studio、AI 模型评测平台(对话式)3.0,覆盖了从模型选择到测试、搭建、发布再到上线生产的全栈环节。 对话式 AI 开发套件 R1-4G,基于紫