近日,网易有道宣布“子曰”大模型迎来 4.0 版本的全方位升级。“子曰4" 正式迈入全模态时代,不仅全面支持文本、图片、音频的融合交互,有道更宣布将核心的“多模态模型”与“语音合成(TTS)模型”正式开源。与此同时,翻译模型也迎来了深度的技术重构,翻译质量与效率实现双重提升。 多模态模型视觉与数理斩获SOTA,纯文本数理难题性能行业领先 据介绍,开源的“子曰4”多模态模型在 27B 参数规模上,面向教育场景,将支持视觉输入的数理能力拉到了行业顶尖水平(SOTA)。在同等参数规模的模型中,“子曰4”在处理带图表的数学题、物理题等高难度视觉数理问题上表现惊艳。中文纯文本数理难题的性能也获得显著提升,模型准确率达81.4%,达到行业领先水平。 ▲ 子曰4在多个视觉数理基准上达到同规模模型中最佳水平 图片来源: https://huggingface.co/netease-youdao/Confucius4 更为关键的突破在于实际落地的“性价比”。相关负责人介绍,新模型采用了精细化思维链重构方案,通过汇聚大规模优质精简的推理样本进行深度优化,成功将推理思维链输出长度压缩了43.2%。 这意味着它可以用更少的 Token、更短的推理路径更快地给出答案,为企业和开发者大幅降低了实际业务场景中的推理成本。 ▲ 子曰4在多个视觉数理基准上大幅降低了输出token的数量 图片来源: https://huggingface.co/netease-youdao/Confucius4 此外,子曰研发团队针对国内学生真实的作业、考试和提问场景进行了深度优化,让它能够真正解决中国学生在实际学习中遇到的真实问题,成为更有温度的数字化助手。 开源TTS:支持14 种语言,3秒克隆原声,跨语种不再有口音 此次与多模态模型一同开源的还有语音合成(TTS)引擎 ,该引擎基于前沿的"语音编码器 + LLM"架构打