RTE &对话式 AI 产品专场:打造对话式 AI 全栈产品矩阵 重构人机交互体验

声网公司
2025-11-12

2025 年 10 月 31 日,在 RTE2025 实时互联网大会的 RTE & 对话式 AI 产品论坛上,声网携手商汤、MiniMax、科大讯飞等生态伙伴的专家带来了精彩的分享,他们分别从 AI 交互体验、对话式 AI 智能体开发、模型性能评测、语音大模型交互等多个角度共同探讨在对话式 AI 迎来爆发之际,如何快速落地对话式 AI 应用/产品,并打造极致的人机交互体验。

姚光华:从迭代到完善,声网对话式 AI 全栈产品矩阵的构建之路

声网 AI RTE 产品线负责人姚光华回顾了对话式 AI 产品的发展历程。去年此时,生成式 AI 是行业热点,而经过一年实践,声网已将对话式 AI 确定为长期战略投入。2024 年多个关键节点推动了对话式 AI 的发展,如 1 月李飞飞博士团队论文提出 Conversation Agent,5 月 OpenAI 计划在 ChatGPT App 推出多模态交互形式(实时语音对话),10 月 OpenAI 与 Agora 联合推出全球首个 To B Realtime API。

声网 AI RTE 产品线负责人姚光华

今年年初,声网推出的对话式 AI 引擎 1.0 以 “多快好省” 为特性,实现 650ms 快速响应与 “优雅打断”。此后八个月历经九次迭代,从 1.0 的 “能说会道” 发展到 1.7 的 “有形象、能专注、会观察”,再到 2.0 优雅打断进一步升级,并支持 SIP、PSTN 电话,实现一行代码,即可完成 AI 电话外呼。同时,对话式 AI 模型评测平台,从 1.0 的速度评测,到 2.0 的质量评测,再到 3.0 覆盖多模型、多厂商、多语种并兼顾成本,让模型选型更加科学、高效。最新推出的对话式 AI Studio1.0,提供可视化编排与生产级模板,不懂代码不懂音频参数也能 1 小时做出专属智能体。

姚光华表示,这些产品覆盖了从模型选择到测试、搭建、发布再到上线生产,再搭配对话式 AI 开发套件,标志着声网正式完成了生产级可用的对话式 AI 产品全栈发布。

毛玉杰:突破体验瓶颈,对话式 AI 引擎 2.0 的多维度升级实践

声网生成式 AI 产品负责人毛玉杰聚焦对话式 AI 引擎的产品演进。过去十年,声网的 SDK 与 SD-RTN™实时网成为人与人互动的基础设施,而在人机交互时代,大模型面临延迟不稳定、难以打断、噪声干扰、网络影响等问题。声网对话式 AI 引擎 1.0 以打造业界 SOTA 对话体验为目标,在延迟(650 毫秒)、打断速度(中位数 340 毫秒)、噪声环境下人声精准锁定等核心指标上表现优异,且支持多模型接入。

声网生成式 AI 产品负责人毛玉杰

1.6 版本开放 ASR 供应商可选,推出自研 “凤鸣 ASR”;1.7 版本向多模态迈进,赋予 AI 形象与视觉观察能力,升级声纹降噪。在 RTE 大会上 2.0 版本正式发布,“优雅打断” 可过滤无语义附和词与自定义文本;支持预注册声纹识别,4-10 秒有效语音即可注册,同时不离线存储声纹,保障隐私;拓展 ASR 和 TTS 供应商,支持第三方自研接入;新增电话外呼功能,支持 SIP、PSTN 电话,通过 AI Studio 编排或一行代码即可实现,稳定性高,进一步推动对话式 AI 从 “能用” 走向 “好用”,AI 不仅能 「听懂」,更能「做到」 

杨帆:降低开发门槛,对话式 AI Studio 的零代码智能体开发方案

声网泛娱乐产品负责人杨帆指出,开发者在集成音视频与对话式 AI 相关功能时存在门槛,对话式 AI Studio 应运而生。该平台定位为对话式 AI 引擎的编排平台,结合声网评测平台,帮助开发者挑选合适模型,可通过 API 集成或 Studio 编排。

声网泛娱乐产品负责人杨帆

其核心是工作流编排,实现 Prompt 编写、ASR 与 TTS 模型及音色配置的可视化与模块化,提供完整模板参数配置。平台支持第三方资源选购与集成,模板中心涵盖智能客服、情感陪伴等场景,并计划上线更多模板。同时,智能外呼正式上线,支持用户绑定号码进行外呼/内呼,今年 Q4 计划推出 1.5 版本实现批量外呼/定时外呼等功能。此外,声网实时转录翻译产品在国内首次发布,为跨语言社交与英语学习等场景提供支持,新用户注册可获免费体验包。

冯晓东:适配智能硬件需求,声网对话式 AI 开发套件的场景化创新

声网 AIoT 产品总监冯晓东介绍,为满足智能硬件开发需求,声网于 2025 年 3 月国内外同步发布对话式 AI 硬件解决方案。该开发套件基于主流 BK7258 芯片,性价比高、同类型芯片算力充足、功耗低,具备 “看、说、听、环境感知” 能力,支持双屏显示、本地唤醒等功能,提供丰富软件资源,助力开发者 “一小时体验 DEMO,一天完成原型”。

声网 AIoT 产品总监冯晓东

随着需求发展,声网联合芯片厂商展锐推出 4G 版本开发套件,采用 Native 4G 芯片,功耗更低、带宽更足、稳定性更好。声网凭借十年音视频积累,保障硬件在全球范围内的体验一致性,支持多语言与合规要求,适用于 AI 陪伴、教育、个人助手、家居管家等场景。未来,声网将支持更广泛的硬件芯片,降低创新门槛,繁荣硬件生态。构建端侧与 Agent 生态,让最优秀的AI智能体,能无缝接入各种基建,繁荣应用生态。

张俊怡:破解选型难题,对话式 AI 模型评测平台 3.0 的科学决策支持

声网 RTE 产品经理张俊怡表示,构建场景化 Agent 时,开发者在 ASR、LLM、TTS 模型选型上存在困惑,传统选型方法耗时费力且决策主观。声网对话式 AI 模型评测平台 3.0 突破传统 Benchmark 局限,传统 Benchmark 静态、通用、孤立且指标单一,无法反映对话式 AI 真实体验,而该平台提供多维决策支持,涵盖性能、质量、性价比维度,覆盖 89个模型、11 个地区、10种语言,小时级更新数据。

声网 RTE 产品经理张俊怡

平台页面呈现综合最优、响应敏感、成本最低等模型组合推荐,提供实时排行榜、价格估算、单模型测试与对比功能。在 ASR 评测上,采用 TurnDetect 检测方法,以 300 毫秒为容忍限制,更贴合对话场景;针对 TTS,推出字母数字性能指标,支持自定义文本生成与试听。该平台助力开发者科学选型,更精准的选择匹配自身业务的模型。

MiniMax:优化语音交互,大模型技术助力对话式 AI 体验升级

MiniMax 开放平台解决方案高级总监冯雯分享了 MiniMax 在语音大模型与对话式 AI 融合领域的深度探索与实践成果。针对对话式 AI 的技术痛点,MiniMax 重点突破三大方向:一是大模型优化,推出专为 Agent 场景打造的 M2 模型,支持并行工具调用,提升回答精准度,上线不到一周免费期内便吸引超 10 万开发者试用;二是延迟攻坚,通过模型架构重构与推理优化,将语音生成延迟从 2023 年的 1 秒左右压缩至 250 毫秒,接近人类自然对话的响应速度,未来将向更极致体验迈进;三是音色创新,推出 “文本描述生成音色” 功能,用户只需描述 “温暖女声”“低沉男声” 等需求及使用场景,即可快速生成适配音色,同时支持音色复刻与双音复刻,可实现方言、不同地域口音的精准还原。

MiniMax 开放平台解决方案高级总监冯雯

此外,MiniMax 已实现 40 多种语言的支持,包括粤语等方言。在情感表达上,支持通过参数调节实现快乐、伤心、惊恐等情绪输出,适配硬件客户的个性化需求。冯雯还提到,端到端语音入语音出模型目前在多轮对话延迟、成本控制、语义理解精度等方面仍有提升空间,MiniMax 将持续关注行业进展,推动技术成熟落地。未来,MiniMax 将聚焦多模态交互、视频通话、长期记忆、个性化内容生成等方向,与生态伙伴携手完善对话式 AI 产品体验。

科大讯飞:追溯技术演进,智能语音识别引领人机交互新方向

科大讯飞寰语 AI 研究院副院长李永超梳理了语音识别技术的四个阶段:机械萌芽时期(模板匹配技术,场景有限)、统计学技术驱动时期(高斯混合模型等,奠定工业级 ASR 基础)、深度感知时代(深度神经网络颠覆声学模型,大规模铺开应用)、认知智能时代(自监督预训练技术泛化能力强,多模态融合实现类人交互体验)。科大讯飞在语音识别领域积累深厚,实现端到端交互技术,打造全双工对话体验,星火语音识别大模型支持多方言(202 种)、多语种(37 个语种精准识别),还能实现多模态降噪和交互。

科大讯飞寰语 AI 研究院副院长李永超

李永超最后还指出人机交互正从以机器为中心走向以人为中心,未来将向更深层感知、更多元的交互模型等方向发展。

商汤科技:聚焦电商场景,AI 数字人赋能直播行业高效发展

商汤科技数字空间事业群生态合作总监徐柏琦介绍,商汤科技在视觉领域技术底蕴深厚,赋能多领域。在电商直播领域,商汤推出图片数字人,单张照片即可生成,支持多语言与多人场景;优化图生视频,解决 IP 保持问题;数字人直播可 7×24 小时进行,提升开播时长与 ROI,更支持多语种,助力跨境出海。例如天猫某 Top 运动服饰品牌,自5月到10月,数字人直播间销售额超2000万。商汤还参与制定数字人行业国标,推出电商运营智能体助力直播播后复盘,推动 AI 在电商直播行业的合规与高效应用。

商汤科技数字空间事业群生态合作总监徐柏琦

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

精彩评论

我们需要你的真知灼见来填补这片空白
发表看法