阿里巴巴开源Qwen3-Next-80B-A3B新架构模型,融合门控DeltaNet和门控注意力的混合架构,训练成本较Qwen3-32B暴降90%,推理效率提升10倍,在超长文本32K以上场景表现尤佳。性能上,指令微调版本媲美旗舰Qwen3-235B,思考模型超越谷歌Gemini-2.5-Flash,成为最强低能耗开源模型之一。今天凌晨2点,阿里巴巴开源了新架构模型Qwen3-Next-80B-...
网页链接阿里巴巴开源Qwen3-Next-80B-A3B新架构模型,融合门控DeltaNet和门控注意力的混合架构,训练成本较Qwen3-32B暴降90%,推理效率提升10倍,在超长文本32K以上场景表现尤佳。性能上,指令微调版本媲美旗舰Qwen3-235B,思考模型超越谷歌Gemini-2.5-Flash,成为最强低能耗开源模型之一。今天凌晨2点,阿里巴巴开源了新架构模型Qwen3-Next-80B-...
网页链接
精彩评论