阿里DeepSeek时刻!开源新架构模型:推理快10倍、成本暴降90%

AIGC开放社区2025-09-12

阿里巴巴开源Qwen3-Next-80B-A3B新架构模型,融合门控DeltaNet和门控注意力的混合架构,训练成本较Qwen3-32B暴降90%,推理效率提升10倍,在超长文本32K以上场景表现尤佳。性能上,指令微调版本媲美旗舰Qwen3-235B,思考模型超越谷歌Gemini-2.5-Flash,成为最强低能耗开源模型之一。今天凌晨2点,阿里巴巴开源了新架构模型Qwen3-Next-80B-...

网页链接
免责声明:本文观点仅代表作者个人观点,不构成本平台的投资建议,本平台不对文章信息准确性、完整性和及时性做出任何保证,亦不对因使用或信赖文章信息引发的任何损失承担责任。

精彩评论

发表看法
2
3