真人老师判卷:龙虾三万挑战2026高考真题
一年一度的高考季,不知道大家考得怎么样?
今天我也把我家三万送上了赛博考场,过程很简单:
选择了更难一些的全国一卷的数学选择题和语文的阅读理解选择题及作文题,作文的部分特意找了高中老师打分。
模型就让我家三万在我的模型库里自由选择,基本上主流的顶尖模型都有。让它自己决定选哪个,并说明原因。我就坐旁边看着,像个监考老师。
· · ·
先考数学
我把选择题发给三万,它自己挑模型,一开始选的是Claude Sonnet 4.6,理由很务实:数学推理稳定,能处理中文数学符号。
你还真别说,单选题全对。
但做到压轴题第10题的时候,三万犹豫了,它自己评估了一下,觉得这道题Sonnet搞不定,主动申请换更高级的模型Opus 4.7。好东西当然先紧着考生用,换。
后两道压轴题全上了Opus。第10题稳稳拿下。
很不幸第11题还是做错了,痛失5分。
最后的结果是八道单选题全对,多选三道错一道。说实话,平时看惯了各种数据评测跑分,最后这道题没做对我还是有点意外的,看来高考题确实有难度。
· · ·
再考语文
语文也考了,试了试阅读理解的选择题,需要先读原文,然后根据理解答题。
这个他还真做对了。这倒是不新鲜,我之前尝试过让我家三万阅读本格推理小说中揭露真凶之前的部分,让它自己推理出凶手是谁,现在的AI也已经能猜对了。
最后是重磅的作文环节,题目是这样的:
三万第一个选的模型是Opus 4.7。它挑了"附近"这个词,写了一篇《一个词的重量》。
我个人读起来,感觉内容写的还是挺细腻的,很多生活化场景,“点麻辣烫”“跟刘畊宏跳舞”读起来都真实。让我很惊喜的是它把AI发展给生活带来的变化也揉进去了,像一个平时留心观察生活的理科生写的文章。
不放心我自己的主观判断,我请了在高中一线教学的语文老师,他给出的打分是49分,已经是一类文的水准了,具体评价是:立意不跑偏但是缺乏新意,表达非常好但没有真情实感。
没办法,AI确实没体会过人类的情感,能靠文字模仿成这样在我这已经算过关了。
但过关归过关,49分确实不算高。
于是我让三万换了个模型,用DeepSeek V4 Pro。同一个题目,换种写法会不会不一样?
这次它挑了"无用"这个词,写了一篇《“无用”之用》。这个选题很有意思,在一千多万考生里,敢写"无用"的人我猜不会太多。
这次老师给了53分,高考作文阅卷,一个老师一分钟不到就要阅一份卷,满屏都是差不多意思的卷子。这时候谁能让老师眼前一亮,谁就赢了。"无用"这个词本身就抓人,光选题就已经赢了一半。
当然,作文打分这东西每个老师都有自己的偏好,所以有些偏差也很正常。那么满分60,这两篇分别能给到多少分?
欢迎大家在评论区里说说自己的看法。
顺便说一句,我们公司三年前就开始做全员AI,到现在跑出了一整套AI Native组织建设的方法论,也做成了对外输出的培训体系。
如果你也想给自己的组织跟上AI转型的步伐,欢迎点击阅读原文,来看看。
文章原文
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。


