推理正确率下降65.5%!斯坦福、MIT等用“不等式”拷问AI逻辑极限

市场资讯2025-06-23

炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 新智元报道编辑:LRST【新智元导读】大语言模型在数学证明中常出现推理漏洞,如跳步或依赖特殊值。斯坦福等高校团队提出IneqMath基准,将不等式证明拆解为可验证的子任务。结果显示,模型的推理正确率远低于答案正确率,暴露出其在数学推理上的缺陷。在大模型频频给出“看似完美”答案的今天,我们是否已经迎来了真正“会推理”的AI?...

网页链接
免责声明:本文观点仅代表作者个人观点,不构成本平台的投资建议,本平台不对文章信息准确性、完整性和及时性做出任何保证,亦不对因使用或信赖文章信息引发的任何损失承担责任。

精彩评论

我们需要你的真知灼见来填补这片空白
发表看法