新智元报道
【新智元导读】你此刻喝的干净水、用的电、看的病,1170亿人里绝大多数做梦都够不着。而算清这串概率的Opus 4.8,前天刚把GPT-5.5踢下全球第一的王座。
如果你在1170亿人里随机投胎,你大概率是一个1650年以前出生的文盲农民,活不过15岁!
算出这个答案的,不是哪个熬白了头的历史学家,是一个AI。
就在刚刚,沃顿商学院教授Ethan Mollick的一条推文,直接在𝕏上刷屏了。
点开他做的这个网站,全人类十几万年的命运,被换算成了一串冷冰冰的概率。
而这串概率背后,从查文献、建模型,到敲下第一行代码、调完每一个像素,连一个真人程序员的影子都没有。
全是Claude Opus 4.8,听着那一句话,一个AI干完的。
Prompt:assume a universal veil of ignorance and you could be born as any human who has ever lived in history, what are the most likely socioeconomic conditions and locations that you would be born in, give the top 10 by percentage chance. This should be sourced. do research as needed
1170亿人的生死贫劳
被AI算尽了
这个网站叫“The Veil of History”,历史的无知之幕。
名字来自哲学家罗尔斯那个著名的思想实验。
假设你还没出生,不知道自己会落在哪个阶层、哪个种族、哪个国家,你会怎么去设计这个社会。
Mollick用Opus 4.8把这块幕布,一把拉到了整个人类史的尺度上。
它的算法不按世纪平摊,而是按每个时代实际出生的人头来加权。哪个时代生的人多,你就更可能投胎到那儿去。
结果显示,人类有史以来,大约出生过1170亿人。其中约81%,生在1650年以前。约94%,生在1900年以前。
网站把这1170亿人,压成一张100个小人的方格图。
切到“时代”那一栏你会发现,绝大多数小人都堆在工业革命以前的格子里。
越往现代走越稀疏,能站到“1900年以后”的,数来数去就那么几个。
绝大多数的“你”,是在田里弯着腰的那一个。
网站继续往下拉,是“十种最可能的人生”,排在最前头的几种,几乎清一色是农耕时代的无名之辈。
没名字,没头衔,在历史里连一行字都没留下,却占掉了整个抽奖池里最大的几块。
而你从小背到大的帝王将相加在一起,凑不出一个小人。
加权之后,极端贫困是常态,识字是例外,能活到成年本身就是一场概率游戏。
点一下抽一条命,你活到了21岁
光看统计不过瘾。这个网站最绝的,是结尾那个“抽一条命”的按钮。
点一下,它就从完整的概率分布里,真给你随机抽一个出生。
年代、地区、阶层、能享什么福、最后什么结局,一次性全配齐。
随手抽一把,多半是这样一张卡面。
公元前6400年前后,一个女孩,东亚河谷里的农民。极端贫困,不识字,没有电,也没有自来水。
活到了大约21岁。
就这么短短两行字,啪地砸在屏幕上。
你可以一直按,按到那个抽象的“1170亿分之一”,终于变成一个具体的、有死法的人为止。
多点几次你会发现,自己一次次落回差不多的境遇里。
除此之外,网站还专门做了一张真实地理的交互世界地图,用D3和Natural Earth画的。
拖动时间滑块,能从12个时代里一格格扫过去。
大部分时间里,这个重心都死死压在亚洲。一路到近现代,才会看见它开始往欧洲、往美洲挪动。
换句话说,人类这本大书,绝大部分章节,都写在了亚洲的田埂上。
实际上,整段人类史里,能喝上干净水、生病找得着医生、孩子大概率能平安长大的人生,加一块儿都凑不满一小撮。
更不用提用上电、住进城里、过上一份现代中等收入的日子了。
你此刻随手就有的这些,是1170亿人里的绝大多数,做梦都够不着的配置。
说到底,今天的人觉得稀松平常的活法,丢回整条人类时间线里看,是一个刺眼到不像话的异常值。
“投胎模拟器”
一个AI,分饰四个角
如此高质量的产品级交付,可不是生成几行HTML和CSS那么简单。
如果让一支传统团队来做,数据分析师清洗人口曲线,历史研究员翻文献佐证,UX设计师画线框图,前端工程师一行行敲D3。几样凑齐、磨到能上线,怎么也得搭进去好几周。
换成Opus 4.8,一个AI就分饰了四个截然不同的高薪岗位,把中间所有的毛刺全部抹平了。
第一层,它是个严谨的数据研究员。
为了算出1170亿这个数和对应的时代分布,它先是翻出人口资料局2022年那份《地球上一共活过多少人》,然后又交叉引用了麦迪逊项目数据库、HYDE数据集和联合国的人口展望,最后合成出了这张各时代各地区的人口份额矩阵。
在这个过程中,算某个地区一共出生过多少人,靠的是一条干净的公式——
每个时代的出生总数,乘以那个时代这个地区占全球的人口比例,再逐代累加。
第二层,是数学建模专家。
棘手的是,从没有任何机构统计过“按地区累计的出生人数”。
于是它自主决定用蒙特卡洛方法处理不确定性,跑了4000轮模拟,越古老、越没把握的年代噪声给得越大,最后输出中位数加5%到95%的置信区间。
第三层,前端架构师。
要在一个单页里把丝滑的滚动叙事和数据状态同步起来,绝非易事。
为此,Opus自己设计了一套现代审美的滚动结构,把海量数据点在浏览器里的渲染、图表的动态响应全解决了,动效顺滑不卡顿。
第四层,它拿出了顶级文案和情绪导演的功力。
首先是宏大的历史长河铺垫,再猛地抛出个体命运的渺小。它用带肉身痛感的短句,把冰冷的统计学一刀刀刺进普通人心里。
代码写得好不稀奇。懂得怎么调动人类情绪,这几乎是碳基生命最后的自留地。
能搓出这个的脑子,前天刚登顶
回到Opus 4.8这边。
在Artificial Analysis的榜单上,它就像一台没感情的压路机,61.4分满血登顶,把GPT-5.5反超了下去。
这是OpenAI 4月坐上头把交椅以来,Claude头一回坐回第一。
在号称“人类最后考试”的Humanity's Last Exam上,Opus 4.8拿到45.7%,领先第二名整整1分。
前沿物理基准CritPt上,它也越过了Gemini 3.1 Pro。
编程没什么悬念。
在更难刷满的SWE-Bench Pro上,它考了69.2%,GPT-5.5是58.6%,直接拉开十个百分点。
在专门模拟真实职场里那些,要动手、要查资料、要敲命令行的基准GDPval-AA中。
Opus 4.8拿了1890 Elo,把第二名GPT-5.5甩开约121分,正面单挑隐含胜率约67%。
不仅如此,它把完成同样复杂任务的平均交互轮数压到了38次,不需要人类反复纠错,自己就能在一连串试错和推理里摸到最优解。
这正是它能独自交付整个网站的底层逻辑。
决赛打到这儿
比的不只是分数
这场AI王座的争夺战,上个月还是GPT-5.5的天下,它把Opus 4.7掀下了榜首。一个多月后,Opus 4.8原样奉还。
今年春天到现在,这把椅子来回换了好几次手,谁都没坐热过。代差正在被压成以周计的拉锯。
但榜单换来换去,真正在变的是评判的标准。
模型一旦被当成能独立干活的Agent,光聪明就不够了,还得看它知不知道自己的边界。
据称Anthropic正洽谈至少300亿美元的新融资,估值冲上9000亿,落定就将越过OpenAI的8520亿,坐上全球最贵AI公司的位置。
发布Opus 4.8的同一天,Anthropic还甩出另一手。
比Opus更强的Mythos级模型,几周内就对所有人开放,而4.8这代的对齐评分,已经追平了那个只给极少数机构试用的Mythos Preview。
聪明和诚实从来不是二选一,Opus 4.8这次的狠处,是两样一块儿往上顶。
个那让全网破防的投胎网站,不过是它随手呼出的一口气。
精彩评论