AI圈子最有意思的事,已经不是“谁家模型参数最多”,而是——谁家小模型,能把大模型打趴下。最近,微软研究院开源了一款“小而强”的研究:Phi-4-reasoning-plus。这是一款专为深度结构化推理任务设计的开源语言模型。14B参数,不到DeepSeek 70B的五分之一,但数学、科学、代码、逻辑推理的表现,都比较能打。在AIME 2025数学考试上,14B的小模型,第一次尝试的全题正确率,...
网页链接AI圈子最有意思的事,已经不是“谁家模型参数最多”,而是——谁家小模型,能把大模型打趴下。最近,微软研究院开源了一款“小而强”的研究:Phi-4-reasoning-plus。这是一款专为深度结构化推理任务设计的开源语言模型。14B参数,不到DeepSeek 70B的五分之一,但数学、科学、代码、逻辑推理的表现,都比较能打。在AIME 2025数学考试上,14B的小模型,第一次尝试的全题正确率,...
网页链接
精彩评论