信创模盒-大模型推理引擎 XC-LLM 在寒武纪加速卡上实现Qwen3系列模型适配

近日，范式 $06082(06082)$ 旗下信创模盒 ModelHub XC 进一步优化了大模型推理引擎 XC-LLM，在寒武纪MLU系列加速卡上完成对Qwen3等主流开源对话模型的适配，实现高效、稳定的文本生成推理能力。

本次适配对寒武纪官方提供的vLLM推理框架和整体架构进行了内核级优化。通过提升架构差异自动适配能力、修复编码兼容性问题、深度优化部分处理逻辑，解决了Qwen3系列模型的适配难题，显著提升文本生成吞吐量、响应速度和中英文混合文本处理能力。除Qwen3外，本次适配同步支持Llama-2、ChatGLM3等主流开源对话模型，并针对张量连续性、内存溢出等工业场景问题提供系统性解决方案，帮助企业和开发者能够更加方便、快捷、稳定的在国产寒武纪算力上完成主流开源模型部署。

本次适配的核心不仅是“换了一个模型”，更是把引擎框架能力做实、做通用，主要体现在：

1）引擎框架的升级：进一步优化了XC-LLM的模型加载、算子链路与推理流程，确保Qwen3、Llama-2、ChatGLM3等主流开源对话模型在寒武纪平台上实现高效产出。

2）面向生产的稳定性增强：针对推理服务中常见的工程问题，完善了张量/内存相关的稳定性处理与边界保护机制，确保模型在寒武纪平台的稳定输出。

3）通用化接入能力沉淀：把一次性适配工作沉淀为可复用的方法与组件，降低后续新模型接入成本，让更多开源模型在寒武纪平台能够更加“高效低成本”的部署上线。

作为面向信创算力场景的推理引擎，XC-LLM 将持续围绕“新模型支持更快速、生产部署更稳定、资源消耗更节省”的目标进行迭代：后续将继续加快模型的适配进度，结合平台特性推进量化、蒸馏等更经济的推理方案，并进一步面向重点行业沉淀可直接落地的场景优化能力，推动国产 AI 软硬协同与生态完善。

免责声明：上述内容仅代表发帖人个人观点，不构成本平台的任何投资建议。

精彩评论

我们需要你的真知灼见来填补这片空白

发表看法

{"i18n":{"language":"zh_CN"},"detailType":1,"isChannel":false,"data":{"magic":2,"id":531187412533952,"tweetId":"531187412533952","gmtCreate":1770705312039,"gmtModify":1770706967637,"author":{"id":4173517089458360,"idStr":"4173517089458360","authorId":4173517089458360,"authorIdStr":"4173517089458360","name":"范式智能","avatar":"https://static.tigerbbs.com/996fd20a98e9ee9ec2cf636e8f289bfd","vip":5,"userType":5,"introduction":"人工智能时代的领军软件企业","boolIsFan":false,"boolIsHead":false,"crmLevel":1,"crmLevelSwitch":0,"individualDisplayBadges":[],"fanSize":197,"starInvestorFlag":false},"themes":[],"images":[{"img":"https://static.tigerbbs.com/d1b1ce212ea7035dcb2220951bc224a5","width":"2560","height":"1440"}],"coverImages":[{"img":"https://static.tigerbbs.com/d1b1ce212ea7035dcb2220951bc224a5","width":"2560","height":"1440"}],"title":"信创模盒-大模型推理引擎 XC-LLM 在寒武纪加速卡上实现Qwen3系列模型适配","html":"<html><head></head><body><p>近日，范式 <a href=\"https://laohu8.com/S/06082\">$06082(06082)$</a> 旗下信创模盒 ModelHub XC 进一步优化了大模型推理引擎 XC-LLM，在寒武纪MLU系列加速卡上完成对Qwen3等主流开源对话模型的适配，实现高效、稳定的文本生成推理能力。</p>\n<p>本次适配对寒武纪官方提供的vLLM推理框架和整体架构进行了内核级优化。通过提升架构差异自动适配能力、修复编码兼容性问题、深度优化部分处理逻辑，解决了Qwen3系列模型的适配难题，显著提升文本生成吞吐量、响应速度和中英文混合文本处理能力。 除Qwen3外，本次适配同步支持Llama-2、ChatGLM3等主流开源对话模型，并针对张量连续性、内存溢出等工业场景问题提供系统性解决方案，帮助企业和开发者能够更加方便、快捷、稳定的在国产寒武纪算力上完成主流开源模型部署。</p>\n<p>本次适配的核心不仅是“换了一个模型”，更是把引擎框架能力做实、做通用，主要体现在：</p>\n<p>1）引擎框架的升级：进一步优化了XC-LLM的模型加载、算子链路与推理流程，确保Qwen3、Llama-2、ChatGLM3等主流开源对话模型在寒武纪平台上实现高效产出。</p>\n<p>2）面向生产的稳定性增强：针对推理服务中常见的工程问题，完善了张量/内存相关的稳定性处理与边界保护机制，确保模型在寒武纪平台的稳定输出。</p>\n<p>3）通用化接入能力沉淀：把一次性适配工作沉淀为可复用的方法与组件，降低后续新模型接入成本，让更多开源模型在寒武纪平台能够更加“高效低成本”的部署上线。</p>\n<p>作为面向信创算力场景的推理引擎，XC-LLM 将持续围绕“新模型支持更快速、生产部署更稳定、资源消耗更节省”的目标进行迭代：后续将继续加快模型的适配进度，结合平台特性推进量化、蒸馏等更经济的推理方案，并进一步面向重点行业沉淀可直接落地的场景优化能力，推动国产 AI 软硬协同与生态完善。</p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/d1b1ce212ea7035dcb2220951bc224a5\" tg-width=\"2560\" tg-height=\"1440\"></p></body></html>","htmlText":"<html><head></head><body><p>近日，范式 <a href=\"https://laohu8.com/S/06082\">$06082(06082)$</a> 旗下信创模盒 ModelHub XC 进一步优化了大模型推理引擎 XC-LLM，在寒武纪MLU系列加速卡上完成对Qwen3等主流开源对话模型的适配，实现高效、稳定的文本生成推理能力。</p>\n<p>本次适配对寒武纪官方提供的vLLM推理框架和整体架构进行了内核级优化。通过提升架构差异自动适配能力、修复编码兼容性问题、深度优化部分处理逻辑，解决了Qwen3系列模型的适配难题，显著提升文本生成吞吐量、响应速度和中英文混合文本处理能力。 除Qwen3外，本次适配同步支持Llama-2、ChatGLM3等主流开源对话模型，并针对张量连续性、内存溢出等工业场景问题提供系统性解决方案，帮助企业和开发者能够更加方便、快捷、稳定的在国产寒武纪算力上完成主流开源模型部署。</p>\n<p>本次适配的核心不仅是“换了一个模型”，更是把引擎框架能力做实、做通用，主要体现在：</p>\n<p>1）引擎框架的升级：进一步优化了XC-LLM的模型加载、算子链路与推理流程，确保Qwen3、Llama-2、ChatGLM3等主流开源对话模型在寒武纪平台上实现高效产出。</p>\n<p>2）面向生产的稳定性增强：针对推理服务中常见的工程问题，完善了张量/内存相关的稳定性处理与边界保护机制，确保模型在寒武纪平台的稳定输出。</p>\n<p>3）通用化接入能力沉淀：把一次性适配工作沉淀为可复用的方法与组件，降低后续新模型接入成本，让更多开源模型在寒武纪平台能够更加“高效低成本”的部署上线。</p>\n<p>作为面向信创算力场景的推理引擎，XC-LLM 将持续围绕“新模型支持更快速、生产部署更稳定、资源消耗更节省”的目标进行迭代：后续将继续加快模型的适配进度，结合平台特性推进量化、蒸馏等更经济的推理方案，并进一步面向重点行业沉淀可直接落地的场景优化能力，推动国产 AI 软硬协同与生态完善。</p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/d1b1ce212ea7035dcb2220951bc224a5\" tg-width=\"2560\" tg-height=\"1440\"></p></body></html>","text":"近日，范式 $06082(06082)$ 旗下信创模盒 ModelHub XC 进一步优化了大模型推理引擎 XC-LLM，在寒武纪MLU系列加速卡上完成对Qwen3等主流开源对话模型的适配，实现高效、稳定的文本生成推理能力。 本次适配对寒武纪官方提供的vLLM推理框架和整体架构进行了内核级优化。通过提升架构差异自动适配能力、修复编码兼容性问题、深度优化部分处理逻辑，解决了Qwen3系列模型的适配难题，显著提升文本生成吞吐量、响应速度和中英文混合文本处理能力。 除Qwen3外，本次适配同步支持Llama-2、ChatGLM3等主流开源对话模型，并针对张量连续性、内存溢出等工业场景问题提供系统性解决方案，帮助企业和开发者能够更加方便、快捷、稳定的在国产寒武纪算力上完成主流开源模型部署。 本次适配的核心不仅是“换了一个模型”，更是把引擎框架能力做实、做通用，主要体现在： 1）引擎框架的升级：进一步优化了XC-LLM的模型加载、算子链路与推理流程，确保Qwen3、Llama-2、ChatGLM3等主流开源对话模型在寒武纪平台上实现高效产出。 2）面向生产的稳定性增强：针对推理服务中常见的工程问题，完善了张量/内存相关的稳定性处理与边界保护机制，确保模型在寒武纪平台的稳定输出。 3）通用化接入能力沉淀：把一次性适配工作沉淀为可复用的方法与组件，降低后续新模型接入成本，让更多开源模型在寒武纪平台能够更加“高效低成本”的部署上线。 作为面向信创算力场景的推理引擎，XC-LLM 将持续围绕“新模型支持更快速、生产部署更稳定、资源消耗更节省”的目标进行迭代：后续将继续加快模型的适配进度，结合平台特性推进量化、蒸馏等更经济的推理方案，并进一步面向重点行业沉淀可直接落地的场景优化能力，推动国产 AI 软硬协同与生态完善。","highlighted":1,"essential":1,"paper":2,"likeSize":0,"commentSize":0,"repostSize":0,"favoriteSize":0,"link":"https://laohu8.com/post/531187412533952","repostId":0,"isVote":1,"tweetType":1,"viewCount":26168,"commentLimit":10,"likeStatus":false,"favoriteStatus":false,"reportStatus":false,"symbols":["06682","06082"],"verified":2,"subType":0,"readableState":1,"langContent":"CN","currentLanguage":"CN","warmUpFlag":false,"orderFlag":false,"shareable":true,"causeOfNotShareable":"","featuresForAnalytics":[],"commentAndTweetFlag":false,"andRepostAutoSelectedFlag":false,"upFlag":false,"length":1331,"optionInvolvedFlag":false,"xxTargetLangEnum":"ZH_CN"},"commentList":[],"isCommentEnd":true,"isTiger":false,"isWeiXinMini":false,"url":"/m/post/531187412533952"}