2026年2月9日,苹果公司与中国人民大学联合推出新型AI模型VSSFlow。该模型可在单一系统内,从无声视频中同步生成高保真环境音效与人类语音。其采用10层架构与流匹配技术,通过联合训练实现语音与音效生成的协同增益。模型已开源代码,权重及在线推理演示正在开发中。 网页链接