近年来,实时数字人技术持续发展,如何在画质、成本与算力之间取得平衡仍是行业长期关注的问题。近期,Soul App旗下Soul AI Lab宣布开源实时数字人生成模型 SoulX-FlashHead。该模型采用1.3B参数规模,通过算法与数据优化,在消费级显卡环境下实现稳定运行,在效率与质量之间探索出新的技术路径。 此前,Soul AI Lab已开源14B参数实时数字人生成模型SoulX-FlashTalk,为实时数字人技术提供了低延时解决方案。在这一基础上,SoulX-FlashHead进一步对模型体量和推理效率进行优化。模型能够在单张消费级显卡RTX 4090上实现96FPS的推理速度,同时保持较高的画面质量。这一设计思路,使实时数字人系统在常见硬件条件下具备稳定运行的可能。 在实时数字人领域,高保真模型往往依赖较大规模的计算资源,而轻量模型则容易出现表情僵硬或画面不稳定等问题。针对这一情况,Soul AI Lab在SoulX-FlashHead中引入多项技术方案,以改善模型在长视频生成和实时交互场景中的表现。 其中一项技术是Oracle-Guided Distillation(双向蒸馏机制)。在这一机制中,模型训练阶段引入“教师模型”作为参考,通过Ground Truth作为约束基准,对生成过程进行校准。这种方式可以在训练阶段强化人物特征的一致性,从而减少长视频生成中出现的身份漂移现象。 在实时生成过程中,为解决短音频切片带来的口型波动问题,SoulX-FlashHead设计了时序音频上下文缓存(TACC)机制。系统会缓存8秒历史音频特征,在生成过程中提供上下文信息补偿。这种设计能够减少口型抖动,使音画同步更加稳定,从而提升整体观看体验。 此外,Soul AI Lab构建了自研数据集 VividHead,从超过10,000小时的素材中筛选出782小时高质量音画数据。数据