信创模盒-大模型推理引擎 XC-LLM 在寒武纪加速卡上实现Qwen3系列模型适配

范式智能
02-10

近日,范式 $06082(06082)$ 旗下信创模盒 ModelHub XC 进一步优化了大模型推理引擎 XC-LLM,在寒武纪MLU系列加速卡上完成对Qwen3等主流开源对话模型的适配,实现高效、稳定的文本生成推理能力。

本次适配对寒武纪官方提供的vLLM推理框架和整体架构进行了内核级优化。通过提升架构差异自动适配能力、修复编码兼容性问题、深度优化部分处理逻辑,解决了Qwen3系列模型的适配难题,显著提升文本生成吞吐量、响应速度和中英文混合文本处理能力。 除Qwen3外,本次适配同步支持Llama-2、ChatGLM3等主流开源对话模型,并针对张量连续性、内存溢出等工业场景问题提供系统性解决方案,帮助企业和开发者能够更加方便、快捷、稳定的在国产寒武纪算力上完成主流开源模型部署。

本次适配的核心不仅是“换了一个模型”,更是把引擎框架能力做实、做通用,主要体现在:

1)引擎框架的升级:进一步优化了XC-LLM的模型加载、算子链路与推理流程,确保Qwen3、Llama-2、ChatGLM3等主流开源对话模型在寒武纪平台上实现高效产出。

2)面向生产的稳定性增强:针对推理服务中常见的工程问题,完善了张量/内存相关的稳定性处理与边界保护机制,确保模型在寒武纪平台的稳定输出。

3)通用化接入能力沉淀:把一次性适配工作沉淀为可复用的方法与组件,降低后续新模型接入成本,让更多开源模型在寒武纪平台能够更加“高效低成本”的部署上线。

作为面向信创算力场景的推理引擎,XC-LLM 将持续围绕“新模型支持更快速、生产部署更稳定、资源消耗更节省”的目标进行迭代:后续将继续加快模型的适配进度,结合平台特性推进量化、蒸馏等更经济的推理方案,并进一步面向重点行业沉淀可直接落地的场景优化能力,推动国产 AI 软硬协同与生态完善。

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

精彩评论

我们需要你的真知灼见来填补这片空白
发表看法