当习惯于互联网时代的某些创业者们,还把“灵活调用API”视为 AI 大脑的周围神经系统和四肢的终极方案时,他们可能会错过技术奇点。
12月份,疑似马斯克旗下 xAI 的 某个模型,在韩服《英雄联盟》钻石局连续挑战 33 小时——胜 56 局、负 4 局,胜率93%。夸张的是,该账号的英雄池里面居然多达20多个不同类型的英雄,堪称“随机王”。更离谱的是,它不仅赢,而且赢得“反直觉”:某些操作看上去像是送,像是赌,但最终却被证明判断正确率极高。那种感觉不是“它操作极快”,而是“它真的在以超算速度分析局势,精算出最佳策略”。
这不是挂机十多个小时的“脚本”。因为 “脚本外挂”这种东西,别说高端玩家了,连笔者曾经也打赢过一次。脚本能开图,能读内存,能锁定目标,能超高APM,但它没有博弈,没有运营,没有团战时序,更没有长期收益最大化的策略稳定性。它们遇到钻石局人类玩家,往往就会原形毕露——因为电竞职业玩家的强,从来不是利用“不对称信息”,也不仅仅是超乎常人的反应速度,而是“决策与执行的闭环”以及刻进“第六感”的游戏底层逻辑认知。种种迹象正在逼近硅谷技术圈当下流传一种极具颠覆性的推演。
这一次, AI 给人的冲击是:它不是脚本外挂,更像一个无限精力的一线职业选手。以至于一些播客猜测是不是某个职业战队的不知名新秀们轮番上线。
Musk vs Faker
更夸张的是,马斯克甚至主动把“作弊空间”封死了,他向全球顶级战队 T1 发出2026年挑战,并且为了公平起见,明确让 AI 只使用屏幕显示信号作为输入——也就是纯视觉输入,无法开图,没有上帝视角。
在输出端,它的输出不是一段文字建议,也不是一串API包,而是直接输出鼠标移动轨迹与键盘按键指令——它不是在接受人类的prompt,而是在亲自打完团战。换句话说,它输出的是精准的action,且没有时间去校验。
这还不够,届时马斯克将进一步把电竞AI的“手速优势”也砍掉:限制鼠标和键盘的输出频率,把 APM 压到职业选手同水平。换句话说,它不能靠超频点击碾压人类,它必须靠决策质量、风险控制、潜意识、团战站位、技能时序赢下来。
如果在这种约束下,AI 仍然能在韩服钻石局保持接近 93% 的胜率,那它赢的就不是“手”,而是“智商”和“直觉”。
英雄联盟主播扒开该帐号的英雄池,感慨简直全能
于是一个极具传播性的画面出现了:
顶级选手 Faker 的第七冠,可能不再只是为自己或者T1卫冕,而是为全人类卫冕。
Faker的一位LOL粉丝看到Faker接受挑战后,留言道:
“We may lose one day, but not today”
此刻的氛围很像当年AlphaGo给李世石下战书。
------
“泄密疑云”:纯视觉神经网络+大模型的冲击,已经大到需要高等级纪律性保密:
就在这个时间点,xAI 又发生了一件耐人寻味的事。 xAI 的一名中层管理者Khan Ghori 在接受播客采访中无意间提到了 xAI 的一个内部项目:暂且用代号Macrohard梗。外界普遍将其理解为一种面向未来的“纯视觉输入的大模型AI”,并被认为是给 Tesla Optimus 等具身智能设备做准备。随后,这位管理者疑似因“泄露内部信息”而迅速离职,引发舆论猜测。
多次主动开源共享的马斯克居然对此项目保密,此事释放的信号非常清晰:
纯视觉输入的大模型,不再是实验室玩具,而是足以撼动产业格局的战略资产。
------
纯视觉神经网络 + 大模型 + RL + 键盘鼠标信号输出:这条路线暗藏巨大的野心,也太颠覆:
一些读者看到xAI在韩服LOL的表现,会下意识把该AI产品归类为“又一个大模型应用”,那就错了,它更像一种全新范式的胜利:
纯视觉神经网络输入 + 大模型(多模态认知/规划) + RL(强化学习策略稳定性)+ 键盘鼠标信号输出。
这套组合真正可怕的地方在于,它不依赖互联网时代的结构化接口,不依赖你提前给它准备好 API,不依赖你把世界整理成 Excel 表格让它读取。
它直接用视觉“看世界”,并在闭环中“做动作”。这才是下一代智能体的核心:
视觉看见 → 理解 → 决策 → 行动→ 再学习
这条路线更接近人类的器官和神经系统:眼睛输入高带宽信息,神经系统完成实时推理,肌肉输出动作,环境反馈再进入下一轮决策。
而所谓“AI Agent”,尤其是那些靠调用 API、拼接工作流、套壳包装的产品,在这种范式面前会显得异常尴尬:
它们本质上是互联网时代的自动化脚本——只不过外面套了一个能说话的壳。
-----
API 调度型 Agent:不是天花板暴露,是路线被时代降级:
过去两年,AI领域创业团队几乎99%都是“AI Agent”概念相关的,“AI Agent”概念被一些不愿意投入算力资源的创业者和短视频吹成了万能钥匙:能读文档、能写邮件、能查资料、能做流程。
但如果你把这些拆开看,会发现大量所谓“Agent创新”只是:设计一套工作流,调模型 API、调工具 API、调搜索 API、调表格/数据库 API,反复校验。然后在融资ppt中把校验机制吹成核心级算法。
这类基于互联网2.0时代的技术和架构,最可怕的地方不是“做不出稳健可靠的产品”,而是——太容易被做出来。
Claude 团队能用 AI 编程短就能复现出 类似Manus的 产品,本质上已经把答案写在脸上:AI Agents几乎等于没有护城河。
或许AI agents在某个历史时间段能找到愿意出高价的客户,但这绝不是“智能突破的胜利”。
而当 Grok 这种“纯视觉闭环智能体”出现后,API 调度型 Agent 的定位将会被迅速降级:
从“应用层热点”退回“插件层”,成为真正闭环智能体的工具箱之一,而不是智能体本身。
笔者不敢说“纯视觉神经网络 + 大模型 + RL + 键盘鼠标信号输出” 是办公室智能体的终极形态,但起码当下这个节骨眼,基于API调用作为大模型周围神经系统和四肢的路线以及显得不够看了。
------
算力军备竞赛:纯视觉模型的成本,会把战场拉到百兆瓦甚至吉瓦级:
这种范式的代价是什么?算力军备竞赛升级,基于视觉的训练和推理都将极大地增加GPU或者LPU集群的性能要求,而且长远来看,保证低延迟的LPU是必须整合到推理芯片组中了,Scaling Law的适用场景怕是要进一步泛化了。
LPU在设计上取消了GPU的很多controller,且完全改变了内存层级结构,使得推理速度在GPU基础上提升了一个数量级。
$英伟达(NVDA)$ 变相收购LPU芯片设计商Groq,也是在为视觉推理做硬件铺垫。
即便不断优化卷积神经网络,纯视觉输入依然意味着 token 密度和信息带宽暴涨。文本 token 再多,本质仍是“人类对世界的转述”;视觉 token 在日常场景下更接近“世界本身”。你要模型学会从像素里提取结构化状态、学会在不确定环境里做动作、学会在强对抗中保持策略稳定——那算力消耗就不是线性增长,而是指数级上升的味道。
这也是为什么 xAI 的 Colossus 这种级别的算力基础设施,会被不断推向更疯狂的规模。最近在Memphis市投入运行Colossus 2成为人类历史上首个功率1GW的AI算力中心,相当于一个30万人口城市的用电规模,更大规模的Colossus 3正在South Haven市动工,吞电怪兽的进化,本身就是一种宣言:AI 竞争短期内看不到尽头,因为算力战争才刚刚开始。
Colossus 2的供电装置采用燃气轮机组+太阳能+Tesla储能,图为Titan燃气轮机机组中的一台。
$台积电(TSM)$
------
Anthropic的 Skills 路线正在“产品化”AI,对“AI Agents”路线造成挤压:
AI Agent不只是门槛低,而是成效受质疑。难以应对大模型的轻微过拟合,难以保证确定性,且一旦模型端稍有更新,AI Agent就可能失灵,需要修改。
更致命的是:即便不谈视觉神经网络输入,传统 Agent 也正在被另一条路线挤压——Skills。
Anthropic 的 Skills 思路并不复杂,但在B端更加实用:
把“智能体即兴发挥”变成“可复用、可测试、可交付”的稳定能力模块。
Claude Skills 的 progressive context loading
企业真正需要的不是一个每天都在变的人格化助手,而是:
能稳定跑、能审计、能回归测试、能线性版本迭代、能明确权限边界、能像软件一样交付。
所以 Skills 开始挤压 Agents概念,原因并不复杂:
Agent 是故事,Skills 是交付。
------
并不只有 xAI 一家在“走向纯视觉闭环”。巨头NVIDIA也在公开推进 VLA(Vision-Language-Action) 方向:
让模型以视觉作为主输入,在极低延迟下直接输出可执行动作,用于自动驾驶与机器人等真实世界任务。换句话说,行业正在从“看懂世界再说出来”,转向“看懂世界就能动手做”。当巨头们纷纷验证这种“视觉输入→动作输出”的范式时,那些仍然把 AI 理解为“调API、跑流程、拼工作流”的套壳 Agent,就会越来越像HTTP时代的技术古董的拼装。
不过对于Nvidia来说,VLA可能也只是现阶段的可选过度技术路线之一,Nvidia追求的长期目标是从模拟宇宙中训练出来的物理AI:
NVIDIA Blue
当市场逐渐意识API调用拼接+反复校验的HTTP模式已经跟不上AI发展的脚步时,那些“套壳Agent公司”的估值叙事会越来越难讲。
甚至在资本市场上,“花 20 亿美元收购一个 Agent 公司”这种行为,不仅没能提振信心,反而会让交易员们产生质疑:“你到底买到了什么?一套容易被复现的API流程拼装?”
------
回顾马斯克和$特斯拉(TSLA)$
这只是马斯克给出众多“反直觉”的决断中的一次而已。
2021~2022 年,激光雷达在车圈火得像颠覆性路线。友商把激光雷达当作领先技术,把纯视觉路线当作“不靠谱”和“偏执”。
市场还在猜测马斯克愿不愿意跟上激光雷达时,马斯克不仅不跟,还把Tesla已经使用多年的毫米波雷达砍了,只剩摄像头,车圈对此一头雾水,某些自媒体群起嘲讽,阴阳怪气。
马斯克做这事不是为了博流量,而是在实践他的第一性原理:人类驾驶主要靠视觉。
公路系统是为视觉生物设计的,所以真正的自动驾驶终局必然是视觉闭环。马斯克对视觉底层逻辑的认知如今对其名下几乎所有企业都带来了新的叙事。
当年友商在中国车圈引爆的激光雷达 vs 纯视觉 路线争论一度延烧到华尔街。如今随着特斯拉fsd的地位确立,激光雷达在如今智能领域的热度大幅下降。
这不是配置之争,这是范式之争。
笔者当年也算是能看懂马斯克这个行为的一员,因为笔者也相信:只有以视觉作为主要大脑信息来源的生命体,才可能进化出初级文明。
视觉摄入的 token 数量与信息传递速率,远远超过阅读和触觉。视觉天然携带空间结构、运动规律、物理现象、因果线索,而语言只是这些信息的后验压缩表达。
这也是为什么今天的 LLM 即便训练数据 token 总量超过 10 万亿级别,在一些直觉问题上仍然表现不够理想:它学到的是“人类对世界的描述”,而不是“世界本身”。
至于进化到更高级文明的智能体是以物理AI形态为路线,或是别的路线,则是另一个的话题了。
马斯克的底层逻辑判断,正在预示智能体的未来形态:
你可以不喜欢马斯克的某些方面,但很难否认一点:他对物理层面底层逻辑的判断能力是一流的。
从特斯拉 Vision 到 Optimus,再到 xAI 在电竞领域打出“类 AlphaGo 时刻”的一击,马斯克释放出的信号已经足够明确:
AI输入和输出端的主战场不是 API 调度,不是套壳 Agent,而是纯视觉闭环智能体。
而这场战争的燃料,是算力——并且短期内看不到尽头。且算力军备竞赛很快会烧到LPU。
当一台机器在韩服钻石局连续 24小时不眠不休、用类人手速、只靠屏幕信息、用鼠标键盘信号输出打穿职业选手的对抗强度时,自媒体们应该意识到:
这不是游戏输了赢的问题。这是人类第一次看见“新物种的操作系统”在现实世界成型。
精彩评论