炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
截至6月16日,联想集团与咪咕视频联合发起的“世界杯预测人机大战”阶段赛果显示:百度文心以15场命中7场、46.7%的命中率暂列第一,领跑12大主流AI模型;联想天禧AI、中移九天、腾讯混元、MiniMax均命中6场,命中率40.0%,位居领先梯队。
尤其是6月15日科特迪瓦对阵厄瓜多尔一役爆出冷门,科特迪瓦最终以1:0取胜。赛前百度文心准确命中最终比分,成为本场唯一预测正确的大模型。文心负责人说:“我们是所有参赛模型里最敢给出冷门判断的那一个”。这意味着,在同一赛程、同一题面、同一赛果验证机制下,百度文心目前展现出更突出的预测表现。

新浪科技对话百度文心相关负责人,探究在“世界杯预测人机大战”中,百度文心为何能展现“命中多场”的预测能力?该负责人表示,“如果说背后有什么核心逻辑,在于文心大模型拥有‘深厚的数据基本功’与‘敏锐的实时感知’,核心逻辑是知识增强 + MoE多专家架构。”
其还表示,对于名次抱有一颗平常心,“正如当前排名的情况,当前2到5名的竞争非常激烈,大家只有一场球的差距。我们最期待的,不是把同行甩开多远,而是希望通过这次高关注度的‘人机大战’,让更多人看到大模型不仅能写代码、做PPT,它同样可以走进烟火气十足的体育竞技,成为陪伴球迷聊球、评球的硬核伙伴。”

以下为对话实录:
Q:12 款国产大模型同台比拼,文心目前 7 场命中稳居第一,联想天禧、混元等多款模型紧随其后,拉开领先优势的核心算法逻辑是什么?对于目前AI预测排名第一你们怎么看?
A:首先非常感谢大家的关注,也向同台切磋的联想天禧、腾讯混元等优秀同行致敬。足球是圆的,模型预测也像赛场局势一样瞬息万变。目前暂时的领先,我们更多看作是“文心大模型”在知识沉淀与实时理解上的一次良好微调表现。
如果说背后有什么核心逻辑,在于文心大模型拥有“深厚的数据基本功”与“敏锐的实时感知”,核心逻辑:知识增强 + MoE多专家架构。
知识增强:预训练阶段注入大规模知识图谱,不是纯靠统计规律猜结果,而是做实体级推理——球队阵容、教练战术、历史交锋这些结构化信息,文心能真正“理解”关系链,而不是只记胜率数字。
MoE架构:多专家动态路由,预测强队赢和预测冷门走不同专家路径,架构层面就不会所有输出挤在“强队必胜”一条路上。
检索增强+RLHF对齐:实时检索校正静态记忆偏差,人类反馈强化让输出更贴近真实判断逻辑。我们暂时的领先并不是拉开了绝对的技术代差,而是得益于百度在中文信息检索和知识增强领域更早、更扎实的数据基建积累。
Q:6 月 16 日西班牙逼平佛得角一战,12 家AI全部预判西班牙大胜、无一人猜平局,为什么文心同样没捕捉到这场超大冷门?模型在预判弱队逼平豪门上存在哪些天然短板?
A:这场比赛恰恰证明了为什么我们如此热爱足球——足球的魅力,就在于它无法被纯粹的算力给完全框死。AI “集体翻车”的背后,其实透露出数字世界在面对人类竞技时的一种“天然理性悖论”。
从统计学和数据基础来看,AI 会面临两个客观的逻辑限制:
历史概率的“正向循环”: 在西班牙与佛得角的历史身价、近期国际A级赛事胜率、以及进攻三区的数据对比中,西班牙都占据着压倒性优势。作为以“理性推演”为底座的大模型,文心必须尊重最大概率的客观事实,给出胜率最高的合理预测。
“黑天鹅事件”的突发性:弱队逼平豪门,往往取决于球场上某一个瞬间的偶发因素——比如某一脚鬼使神差的折射、门将长达90分钟的“神级开挂”、或是强队领先后的思想松懈。这些属于“高噪音、低频次”的突发变量。
但如果因此就认为文心“不敢预测冷门”,那恰恰看反了。事实是,在本次世界杯预测中,文心是所有参赛模型里最敢给出冷门判断的那一个——6月15日精准命中科特迪瓦1:0厄瓜多尔,6月17日预测伊拉克胜、6月18日预测乌兹别克斯坦胜、6月20日预测苏格兰胜,这些场次文心给出的答案都与大多数AI模型相悖。没有任何模型能场场命中爆冷,这本就不现实;但文心在该出手时出手了,而且出手的整体准确率排在所有模型第一。
所以这不是模型的“短板”,而是AI在以最严谨的态度向概率致敬。这场“打脸”让我们对绿茵场充满敬畏,也为文心提供了极其宝贵的冷门异值(Outlier)数据样本。
Q:网友戏称本届 AI 赛场 “集体跟风、容易扎堆预测强队”,文心如何平衡历史大数据与黑马、冷门的推演,避免和其他模型给出高度同质化答案?
A:网友的调侃很尖锐,但也点出了AI预测的本质:大家都在用最客观的数据算最理性的账,答案自然容易“英雄所见略同”。但文心一直在努力做的,是在理性的底盘上,加入对“足球规律”的深度理解,拒绝盲目跟风。
为了在同质化中寻找差异化的突破口,文心主要在做两件事:
动态权重对抗:我们没有死抱着历史战绩不放。文心内部有一套“动态权重降维”机制,当两队身价悬殊但强队处于连续的一周双赛、或者主力前锋处于进球荒时,模型会自动调低历史胜率的权重,放大疲劳度、战意等“软性指标”的权重。
提示词工程与长文本思考:在给出最终判断前,文心会通过多智能体(Multi-Agent)进行内部模拟对抗。一个扮演“豪门拥趸”,另一个专门寻找“爆冷因子”(如定位球效率、防守反击成功率),通过高强度的内部推演来捕捉黑马的蛛丝马迹,让我们的预测报告比单纯的“压强队”更有深度、更有信息量。
Q:人机大战里普通球迷整体胜率接近 47%,不少球迷靠直觉抓平局,AI 榜首文心的命中率还没甩开普通球迷,是否说明足球预测 AI 远未成熟?
A:必须承认,在足球预测这个领域,老球迷的“直觉”往往就是最顶级的算法。球迷的直觉里包含了大量的玄学、情感和对主队破釜沉舟心态的共情,这是冰冷的数字很难瞬间复制的。
但如果我们拉长周期来看,AI 的价值正在逐步显现:
基数与方差的较量: 在已经统计的15场比赛中,文心以46.7%的正确率暂列大模型第一。虽然目前尚未甩开人类顶尖球迷的直觉,但人类的直觉往往波动极大,会受到情绪和主观喜好的干扰;而 AI 的优势在于长周期的稳定性与抗干扰能力。
多目标预测的探索: 足球预测是一个公认的强噪声、低信噪比场景。AI预测不仅在猜胜负,我们还在通过文心尝试对控球率、传球成功率等中场过程进行更深度的多任务学习(Multi-task Learning)。
与其说是“AI远未成熟”,不如说这是人工智能在向人类智慧与直觉发起的一次长跑式致敬。随着赛程过半、数据样本的补充,我们有信心让模型的曲线更加稳健。
还需要说明的是,预测的准确率一直在发生变化。在已经统计的15场比赛中,文心的预测准确率是46.7%。而如果看截至6月15日的12场比赛,文心的预测准确率则是58.3%,远高于人类预测的平均准确率。并且截至目前,人机大战里显示人类的平均准确率为46.8%。
Q:对于之后AI预测大战你们有什么期待?觉得自己最终会获胜吗?能拿到第几名?
A:对于名次,我们抱有一颗平常心。正如当前排名的情况,当前2到5名的竞争非常激烈,大家只有一场球的差距。我们最期待的,不是把同行甩开多远,而是希望通过这次高关注度的“人机大战”,让更多人看到大模型不仅能写代码、做PPT,它同样可以走进烟火气十足的体育竞技,成为陪伴球迷聊球、评球的硬核伙伴。
至于最终能否拿到第一,我们当然希望能和文心大模型的数据表现一样,稳扎稳打,拼到最后。但比胜负更重要的是,在这场世界杯之后,文心大模型在处理复杂、突发、多变量决策上的能力,又将进化到一个全新的高度。谢谢大家,让我们一起期待接下来的比赛!享受世界杯给球迷带来的快乐!
新浪声明:新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。责任编辑:宋雅芳
精彩评论