NVIDIA研究院近日推出PersonaPlex-7B-v1,一款基于Moshi架构的70亿参数全双工语音到语音对话模型。该模型摒弃传统ASR→LLM→TTS级联流程,采用统一Transformer架构,在单一网络中同步处理语音理解与生成,支持自然打断、重叠语音、快速轮转及上下文感知的反馈词。PersonaPlex通过混合提示机制实现精准角色控制:音频提示定义音色与韵律,文本提示设定角色身份与业务...
网页链接NVIDIA研究院近日推出PersonaPlex-7B-v1,一款基于Moshi架构的70亿参数全双工语音到语音对话模型。该模型摒弃传统ASR→LLM→TTS级联流程,采用统一Transformer架构,在单一网络中同步处理语音理解与生成,支持自然打断、重叠语音、快速轮转及上下文感知的反馈词。PersonaPlex通过混合提示机制实现精准角色控制:音频提示定义音色与韵律,文本提示设定角色身份与业务...
网页链接
精彩评论