RTE &对话式 AI 产品专场：打造对话式 AI 全栈产品矩阵重构人机交互体验_老虎社区_美港股上老虎

RTE &对话式 AI 产品专场：打造对话式 AI 全栈产品矩阵重构人机交互体验

2025 年 10 月 31 日，在 RTE2025 实时互联网大会的 RTE & 对话式 AI 产品论坛上，声网携手商汤、MiniMax、科大讯飞等生态伙伴的专家带来了精彩的分享，他们分别从 AI 交互体验、对话式 AI 智能体开发、模型性能评测、语音大模型交互等多个角度共同探讨在对话式 AI 迎来爆发之际，如何快速落地对话式 AI 应用/产品，并打造极致的人机交互体验。

姚光华：从迭代到完善，声网对话式 AI 全栈产品矩阵的构建之路

声网 AI RTE 产品线负责人姚光华回顾了对话式 AI 产品的发展历程。去年此时，生成式 AI 是行业热点，而经过一年实践，声网已将对话式 AI 确定为长期战略投入。2024 年多个关键节点推动了对话式 AI 的发展，如 1 月李飞飞博士团队论文提出 Conversation Agent，5 月 OpenAI 计划在 ChatGPT App 推出多模态交互形式（实时语音对话），10 月 OpenAI 与 Agora 联合推出全球首个 To B Realtime API。

声网 AI RTE 产品线负责人姚光华

今年年初，声网推出的对话式 AI 引擎 1.0 以 “多快好省” 为特性，实现 650ms 快速响应与 “优雅打断”。此后八个月历经九次迭代，从 1.0 的 “能说会道” 发展到 1.7 的 “有形象、能专注、会观察”，再到 2.0 优雅打断进一步升级，并支持 SIP、PSTN 电话，实现一行代码，即可完成 AI 电话外呼。同时，对话式 AI 模型评测平台，从 1.0 的速度评测，到 2.0 的质量评测，再到 3.0 覆盖多模型、多厂商、多语种并兼顾成本，让模型选型更加科学、高效。最新推出的对话式 AI Studio1.0，提供可视化编排与生产级模板，不懂代码不懂音频参数也能 1 小时做出专属智能体。

姚光华表示，这些产品覆盖了从模型选择到测试、搭建、发布再到上线生产，再搭配对话式 AI 开发套件，标志着声网正式完成了生产级可用的对话式 AI 产品全栈发布。

毛玉杰：突破体验瓶颈，对话式 AI 引擎 2.0 的多维度升级实践

声网生成式 AI 产品负责人毛玉杰聚焦对话式 AI 引擎的产品演进。过去十年，声网的 SDK 与 SD-RTN™实时网成为人与人互动的基础设施，而在人机交互时代，大模型面临延迟不稳定、难以打断、噪声干扰、网络影响等问题。声网对话式 AI 引擎 1.0 以打造业界 SOTA 对话体验为目标，在延迟（650 毫秒）、打断速度（中位数 340 毫秒）、噪声环境下人声精准锁定等核心指标上表现优异，且支持多模型接入。

声网生成式 AI 产品负责人毛玉杰

1.6 版本开放 ASR 供应商可选，推出自研 “凤鸣 ASR”；1.7 版本向多模态迈进，赋予 AI 形象与视觉观察能力，升级声纹降噪。在 RTE 大会上 2.0 版本正式发布，“优雅打断” 可过滤无语义附和词与自定义文本；支持预注册声纹识别，4-10 秒有效语音即可注册，同时不离线存储声纹，保障隐私；拓展 ASR 和 TTS 供应商，支持第三方自研接入；新增电话外呼功能，支持 SIP、PSTN 电话，通过 AI Studio 编排或一行代码即可实现，稳定性高，进一步推动对话式 AI 从 “能用” 走向 “好用”，AI 不仅能「听懂」，更能「做到」

杨帆：降低开发门槛，对话式 AI Studio 的零代码智能体开发方案

声网泛娱乐产品负责人杨帆指出，开发者在集成音视频与对话式 AI 相关功能时存在门槛，对话式 AI Studio 应运而生。该平台定位为对话式 AI 引擎的编排平台，结合声网评测平台，帮助开发者挑选合适模型，可通过 API 集成或 Studio 编排。

声网泛娱乐产品负责人杨帆

其核心是工作流编排，实现 Prompt 编写、ASR 与 TTS 模型及音色配置的可视化与模块化，提供完整模板参数配置。平台支持第三方资源选购与集成，模板中心涵盖智能客服、情感陪伴等场景，并计划上线更多模板。同时，智能外呼正式上线，支持用户绑定号码进行外呼/内呼，今年 Q4 计划推出 1.5 版本实现批量外呼/定时外呼等功能。此外，声网实时转录翻译产品在国内首次发布，为跨语言社交与英语学习等场景提供支持，新用户注册可获免费体验包。

冯晓东：适配智能硬件需求，声网对话式 AI 开发套件的场景化创新

声网 AIoT 产品总监冯晓东介绍，为满足智能硬件开发需求，声网于 2025 年 3 月国内外同步发布对话式 AI 硬件解决方案。该开发套件基于主流 BK7258 芯片，性价比高、同类型芯片算力充足、功耗低，具备 “看、说、听、环境感知” 能力，支持双屏显示、本地唤醒等功能，提供丰富软件资源，助力开发者 “一小时体验 DEMO，一天完成原型”。

声网 AIoT 产品总监冯晓东

随着需求发展，声网联合芯片厂商展锐推出 4G 版本开发套件，采用 Native 4G 芯片，功耗更低、带宽更足、稳定性更好。声网凭借十年音视频积累，保障硬件在全球范围内的体验一致性，支持多语言与合规要求，适用于 AI 陪伴、教育、个人助手、家居管家等场景。未来，声网将支持更广泛的硬件芯片，降低创新门槛，繁荣硬件生态。构建端侧与 Agent 生态，让最优秀的AI智能体，能无缝接入各种基建，繁荣应用生态。

张俊怡：破解选型难题，对话式 AI 模型评测平台 3.0 的科学决策支持

声网 RTE 产品经理张俊怡表示，构建场景化 Agent 时，开发者在 ASR、LLM、TTS 模型选型上存在困惑，传统选型方法耗时费力且决策主观。声网对话式 AI 模型评测平台 3.0 突破传统 Benchmark 局限，传统 Benchmark 静态、通用、孤立且指标单一，无法反映对话式 AI 真实体验，而该平台提供多维决策支持，涵盖性能、质量、性价比维度，覆盖 89个模型、11 个地区、10种语言，小时级更新数据。

声网 RTE 产品经理张俊怡

平台页面呈现综合最优、响应敏感、成本最低等模型组合推荐，提供实时排行榜、价格估算、单模型测试与对比功能。在 ASR 评测上，采用 TurnDetect 检测方法，以 300 毫秒为容忍限制，更贴合对话场景；针对 TTS，推出字母数字性能指标，支持自定义文本生成与试听。该平台助力开发者科学选型，更精准的选择匹配自身业务的模型。

MiniMax：优化语音交互，大模型技术助力对话式 AI 体验升级

MiniMax 开放平台解决方案高级总监冯雯分享了 MiniMax 在语音大模型与对话式 AI 融合领域的深度探索与实践成果。针对对话式 AI 的技术痛点，MiniMax 重点突破三大方向：一是大模型优化，推出专为 Agent 场景打造的 M2 模型，支持并行工具调用，提升回答精准度，上线不到一周免费期内便吸引超 10 万开发者试用；二是延迟攻坚，通过模型架构重构与推理优化，将语音生成延迟从 2023 年的 1 秒左右压缩至 250 毫秒，接近人类自然对话的响应速度，未来将向更极致体验迈进；三是音色创新，推出 “文本描述生成音色” 功能，用户只需描述 “温暖女声”“低沉男声” 等需求及使用场景，即可快速生成适配音色，同时支持音色复刻与双音复刻，可实现方言、不同地域口音的精准还原。

MiniMax 开放平台解决方案高级总监冯雯

此外，MiniMax 已实现 40 多种语言的支持，包括粤语等方言。在情感表达上，支持通过参数调节实现快乐、伤心、惊恐等情绪输出，适配硬件客户的个性化需求。冯雯还提到，端到端语音入语音出模型目前在多轮对话延迟、成本控制、语义理解精度等方面仍有提升空间，MiniMax 将持续关注行业进展，推动技术成熟落地。未来，MiniMax 将聚焦多模态交互、视频通话、长期记忆、个性化内容生成等方向，与生态伙伴携手完善对话式 AI 产品体验。

科大讯飞：追溯技术演进，智能语音识别引领人机交互新方向

科大讯飞寰语 AI 研究院副院长李永超梳理了语音识别技术的四个阶段：机械萌芽时期（模板匹配技术，场景有限）、统计学技术驱动时期（高斯混合模型等，奠定工业级 ASR 基础）、深度感知时代（深度神经网络颠覆声学模型，大规模铺开应用）、认知智能时代（自监督预训练技术泛化能力强，多模态融合实现类人交互体验）。科大讯飞在语音识别领域积累深厚，实现端到端交互技术，打造全双工对话体验，星火语音识别大模型支持多方言（202 种）、多语种（37 个语种精准识别），还能实现多模态降噪和交互。

科大讯飞寰语 AI 研究院副院长李永超

李永超最后还指出人机交互正从以机器为中心走向以人为中心，未来将向更深层感知、更多元的交互模型等方向发展。

商汤科技：聚焦电商场景，AI 数字人赋能直播行业高效发展

商汤科技数字空间事业群生态合作总监徐柏琦介绍，商汤科技在视觉领域技术底蕴深厚，赋能多领域。在电商直播领域，商汤推出图片数字人，单张照片即可生成，支持多语言与多人场景；优化图生视频，解决 IP 保持问题；数字人直播可 7×24 小时进行，提升开播时长与 ROI，更支持多语种，助力跨境出海。例如天猫某 Top 运动服饰品牌，自5月到10月，数字人直播间销售额超2000万。商汤还参与制定数字人行业国标，推出电商运营智能体助力直播播后复盘，推动 AI 在电商直播行业的合规与高效应用。

商汤科技数字空间事业群生态合作总监徐柏琦

免责声明：上述内容仅代表发帖人个人观点，不构成本平台的任何投资建议。

RTE &对话式 AI 产品专场：打造对话式 AI 全栈产品矩阵 重构人机交互体验