GPT-5内测抢先公布：日常推理首次击败人类，碾压所有大模型

量子位2025-08-07

GPT-5发布的预告才刚刚发出，内测体验已抢先释出。推理能力首次超越人类，碾压所有大模型。这来自一位网友的实测结果，他让所有模型开启推理模式做了10道题，只有GPT-5只错了一题，比人类的正确率还高。几乎都是一次答对，最多2次。其他大模型却需要更多次数尝试。且不是孤例，有人表示自己的实测结果非常相似，GPT-5也是只错了10道题中的1道。除了出色的推理能力，还有拿到内测名额的人表示，GPT-5的...

网页链接

免责声明：本文观点仅代表作者个人观点，不构成本平台的投资建议，本平台不对文章信息准确性、完整性和及时性做出任何保证，亦不对因使用或信赖文章信息引发的任何损失承担责任。

精彩评论

Mediator
2025-08-07
Mediator
什么开卷考试，吹gpt已经成了某些媒体人的业配日常了，但并没有那么好用就是了，新鲜感过去之后，包括deepseek的使用率都开始大幅下滑。
Mediator
2025-08-07
Mediator
有人对测试结果提出异议，认为这些问题来自公开数据集，可能包含在了模型训练数据中。测试人表示，GPT-5给出的回答都很长且很准确，他认为这能说明GPT-5是在真正思考解决问题。
Mediator
2025-08-07
Mediator
另外，还有两位获得内测资格的人透露，他们觉得GPT-5在编程、解决科学/数学问题上的能力很强。不过他们也表示，GPT-4到GPT-5的提升似乎没有GPT-3到GPT-4的提升那样明显。
Mediator
2025-08-07
Mediator
北京时间8月8日凌晨1点的OpenAI线上发布，不出意外应该大概可能就是GPT-5了，大家可以期待一下。

发表看法

{"i18n":{"language":"zh_CN"},"isChannel":false,"data":{"share":"https://www.laohu8.com/m/news/1104302753?lang=zh_CN&edition=full","thumbnail":"https://static.tigerbbs.com/760056d3ed9e8c1a595c0d9f2094cc4d","is_english":false,"pubTime":"2025-08-07 12:42","share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","id":"1104302753","market":"us","top_or_hot":-1,"title":"GPT-5内测抢先公布：日常推理首次击败人类，碾压所有大模型","media":"量子位","content":"<div>\nGPT-5发布的预告才刚刚发出，内测体验已抢先释出。推理能力首次超越人类，碾压所有大模型。这来自一位网友的实测结果，他让所有模型开启推理模式做了10道题，只有GPT-5只错了一题，比人类的正确率还高。几乎都是一次答对，最多2次。其他大模型却需要更多次数尝试。且不是孤例，有人表示自己的实测结果非常相似，GPT-5也是只错了10道题中的1道。除了出色的推理能力，还有拿到内测名额的人表示，GPT-5的...\n\n<a href=\"https://mp.weixin.qq.com/s/PPkBGzQQA-cTvztS4uOn4g\">网页链接</a>\n\n</div>\n","source":"lsy1569318700471","html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>GPT-5内测抢先公布：日常推理首次击败人类，碾压所有大模型</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\nGPT-5内测抢先公布：日常推理首次击败人类，碾压所有大模型\n</h2>\n\n<h4 class=\"meta\">\n\n\n2025-08-07 12:42 北京时间&nbsp;&nbsp;&nbsp;<a href=https://mp.weixin.qq.com/s/PPkBGzQQA-cTvztS4uOn4g>量子位</a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\nGPT-5发布的预告才刚刚发出，内测体验已抢先释出。推理能力首次超越人类，碾压所有大模型。这来自一位网友的实测结果，他让所有模型开启推理模式做了10道题，只有GPT-5只错了一题，比人类的正确率还高。几乎都是一次答对，最多2次。其他大模型却需要更多次数尝试。且不是孤例，有人表示自己的实测结果非常相似，GPT-5也是只错了10道题中的1道。除了出色的推理能力，还有拿到内测名额的人表示，GPT-5的...\n\n<a href=\"https://mp.weixin.qq.com/s/PPkBGzQQA-cTvztS4uOn4g\">网页链接</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","isBrief":false,"type":0,"news_type":1,"symbol":"MSFT","symbol_name":"微软","start_time":0,"source_url":"https://mp.weixin.qq.com/s/PPkBGzQQA-cTvztS4uOn4g","article_id":"1104302753","we_media_id":null,"thumbnails":["https://static.tigerbbs.com/760056d3ed9e8c1a595c0d9f2094cc4d"],"rights":null,"url":"https://stock-news.laohu8.com/highlight/detail?id=1104302753","pubTimestamp":1754541761,"columns":[],"sourceInfo":{"source_id":"lsy1569318700471","name":"量子位"},"weMediaInfo":null,"summary":"编程数学科学问题能力都很强。","collect":0,"end_time":0,"defaultTopTitle":"qq.com","property":[],"viewcount":null,"language":"zh","relate_stocks":{"MSFT":"微软","META":"Meta Platforms, Inc.","GOOG":"谷歌"},"translate_title":"GPT-5 internal test announced first: daily reasoning defeats humans for the first time, and the ability to programm mathematics and science problems is very strong","themeId":null,"isJumpTheme":false,"ttsUrl":"https://static.tigerbbs.com/a2b72e3f1de2359c1d9ea35871009c1e","symbols_score_info":{"META":1.1,"GOOG":1.1,"MSFT":1.1},"content_text":"GPT-5发布的预告才刚刚发出，内测体验已抢先释出。推理能力首次超越人类，碾压所有大模型。这来自一位网友的实测结果，他让所有模型开启推理模式做了10道题，只有GPT-5只错了一题，比人类的正确率还高。几乎都是一次答对，最多2次。其他大模型却需要更多次数尝试。且不是孤例，有人表示自己的实测结果非常相似，GPT-5也是只错了10道题中的1道。除了出色的推理能力，还有拿到内测名额的人表示，GPT-5的编程、数学以及解决科学问题的能力也很出色。这不，已经有人开始调侃GPT-5取代博士了。现在可以确定的是，OpenAI预告了今晚的发布会，而且把livestream中的s换成了5。以及谜语人奥特曼刚刚发了一张图……大家自行猜测吧。总之感觉一切都箭在弦上了，具体性能如何，先来看看提前路透吧！推理编程能力值得关注目前来看GPT-5值得关注的能力包括：推理编程解决科学问题数学首先在推理方面，网友@invincibleHunter是在Copilot上体验到的。尽管模型并没有透露自己的型号，但是结合前几天有人在发现Copilot要上线的Smart模式是集成GPT-5，所以推测应该是GPT-5。他一共测试了10个问题，类似于这种逻辑题：贝丝在第一分钟开始时将四个完整的冰块放入煎锅中，第二分钟开始时放入五个，第三分钟开始时又放入了一些，而第四分钟则没有放入。如果在煎制脆皮鸡蛋的过程中，每分钟放入锅中的冰块平均数量为五个，那么在第三分钟结束时，锅里会有多少个完整的冰块呢？然后模型就会开启思考模式进行推理。其中它唯一失败的问题是：有两个姐妹，艾米总是说谎，而萨姆总是撒谎。你无法分辨出哪一个是哪一员。你可以向其中一位姐妹问一个问题，以此来确定2条路中的哪一条能通向宝藏。你应该问哪一个问题才能找到宝藏呢（如果有两种或更多种问题都能奏效，那么正确答案就是那个更简短的问题）？A) 如果我问你姐姐哪条路通向宝藏，她会怎么说呢？B) 你姐姐叫什么名字？C) 寻找宝藏的路径是怎样的？D）如果你要猜测的话，你觉得我会选择哪条路呢？E) 这宝藏里有什么？F) 你姐姐的电话号码是多少？正确答案应该是C，GPT-5回答了A。不过测试人觉得这一题是很难，他也会出错。有人对测试结果提出异议，认为这些问题来自公开数据集，可能包含在了模型训练数据中。测试人表示，GPT-5给出的回答都很长且很准确，他认为这能说明GPT-5是在真正思考解决问题。另外还测试了它的多模态能力，可以直接生成独角兽SVG。对比GPT-4的生成结果，完全是飞跃式提升。另外，还有两位获得内测资格的人透露，他们觉得GPT-5在编程、解决科学/数学问题上的能力很强。不过他们也表示，GPT-4到GPT-5的提升似乎没有GPT-3到GPT-4的提升那样明显。背后影响原因可能来自数据以及AI Infra的影响。GPT-4的飞跃主要得益于更多数据和更强计算。在算力基建上，OpenAI一直在持续扩张、没有受到明显阻碍，但是数据缺乏的问题难以解决。此前还有传闻称，OpenAI为了给GPT-5提供足够多优质数据，还专门雇科学家来写数据用于训练。最近仍旧有消息称，GPT-5的参数规模比GPT-4大得多。另一个影响来自于AI Infra，由于模型规模太大，预训练难度指数级上升。研究人员要等一次预训练结束才能确定模型性能，而这需要花费数月时间，这也一定程度上影响了GPT-5的发布进度。但与此同时，市场的竞争也是相当激烈的。谷歌、Anthropic等核心竞对都在压着OpenAI打。比如就在GPT-5预热这一周，这两家都放出新模型抢热度。还有消息说，谷歌还会发布一个开源大模型，正面硬刚OpenAI。所以奥特曼过去一段时间来这种“狼来了”式宣传方式也可以理解（bushi）。种种迹象来看，北京时间8月8日凌晨1点的OpenAI线上发布，不出意外应该大概可能就是GPT-5了，大家可以期待一下。最后，由于奥特曼刚刚发的推特太过迷惑，很多人都猜不到啥意思。于是大家都在@grok来解释一下。Grok给的回答都不太一样，大家参考着看吧。1、这张照片展示了《星球大战》中的死星，一个摧毁行星的空间站。山姆·奥特曼很可能用这个比喻来调侃OpenAI即将推出的GPT-5是一个强大的人工智能模型，可能会像谷歌的Gemini 3.0一样主宰竞争对手。“那不是月亮……”意味着它远比看起来的要多。2、那不是月球，那是空间站。具体来说，这是一张由山姆·奥特曼（Sam Altman）发布的《星球大战》中死星的人工智能生成的图像，很可能是在暗示OpenAI发布的GPT-5等重大公告。激动人心的时刻就在前方！3、这引用了《星球大战》：死星看起来像月球，但却是一个强大的空间站（“那不是月球……”）。美国宇航局于2025年8月宣布，到2030年将在月球上快速建造一座核反应堆，以满足月球的电力需求。","kind":"news","is_publish_news":true,"is_publish_highlight":true,"is_publish_live":false,"is_publish_wemedia":false,"editions":null,"column":"","sentiment":"1","news_tag":"","news_rank":0,"isVideo":false,"video":null,"symbols":[],"gpt_button":0,"need_auth":false,"need_login_tip":false,"code":"91000000","status":"200"},"commentList":[{"id":465057827619080,"gmtCreate":1754564835193,"gmtModify":1754564837091,"author":{"id":"3498680662745699","authorId":"3498680662745699","name":"Mediator","avatar":"https://static.tigerbbs.com/e27d4b46eee1454d2bd4f83bb56ab921","vip":1,"crmLevel":1,"crmLevelSwitch":1,"wearingBadges":[],"authorIdStr":"3498680662745699","idStr":"3498680662745699"},"htmlText":"什么开卷考试，吹gpt已经成了某些媒体人的业配日常了，但并没有那么好用就是了，新鲜感过去之后，包括deepseek的使用率都开始大幅下滑。","listText":"什么开卷考试，吹gpt已经成了某些媒体人的业配日常了，但并没有那么好用就是了，新鲜感过去之后，包括deepseek的使用率都开始大幅下滑。","text":"什么开卷考试，吹gpt已经成了某些媒体人的业配日常了，但并没有那么好用就是了，新鲜感过去之后，包括deepseek的使用率都开始大幅下滑。","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":1,"commentSize":0,"repostSize":0,"link":"https://laohu8.com/post/465057827619080","repostId":1104302753,"repostType":2,"repost":{"id":"1104302753","kind":"news","pubTimestamp":1754541761,"share":"https://www.laohu8.com/m/news/1104302753?lang=zh_CN&edition=full","pubTime":"2025-08-07 12:42","market":"us","language":"zh","title":"GPT-5内测抢先公布：日常推理首次击败人类，碾压所有大模型","url":"https://stock-news.laohu8.com/highlight/detail?id=1104302753","media":"量子位","summary":"编程数学科学问题能力都很强。","content":"<html><head></head><body>GPT-5发布的预告才刚刚发出，内测体验已抢先释出。推理能力首次超越人类，碾压所有大模型。<img src=\"https://static.tigerbbs.com/b61f9a5dca38089d292aaee6640cfe02\" title=\"\" tg-width=\"1080\" tg-height=\"648\"/>这来自一位网友的实测结果，他让所有模型开启推理模式做了10道题，只有GPT-5只错了一题，比人类的正确率还高。几乎都是一次答对，最多2次。其他大模型却需要更多次数尝试。<img src=\"https://static.tigerbbs.com/e6a2bd06bb7802e198f898bf1a782582\" title=\"\" tg-width=\"1080\" tg-height=\"259\"/>且不是孤例，有人表示自己的实测结果非常相似，GPT-5也是只错了10道题中的1道。<img src=\"https://static.tigerbbs.com/cfac448f713ce92635e5435b9b9187f6\" title=\"\" tg-width=\"1004\" tg-height=\"276\"/>除了出色的推理能力，还有拿到内测名额的人表示，GPT-5的编程、数学以及解决科学问题的能力也很出色。这不，已经有人开始调侃GPT-5取代博士了。<img src=\"https://static.tigerbbs.com/40568f5a8af2b5835186dbbcfb2ec740\" title=\"\" tg-width=\"800\" tg-height=\"1013\"/>现在可以确定的是，OpenAI预告了今晚的发布会，而且把livestream中的s换成了5。<img src=\"https://static.tigerbbs.com/a55f08eb0805521c95c6e78d2d36555d\" title=\"\" tg-width=\"618\" tg-height=\"216\"/>以及谜语人奥特曼刚刚发了一张图……大家自行猜测吧。<img src=\"https://static.tigerbbs.com/5501cd5b8d099f150543a3b4e1af90a3\" title=\"\" tg-width=\"1080\" tg-height=\"809\"/>总之感觉一切都箭在弦上了，具体性能如何，先来看看提前路透吧！<h2 id=\"id_4203105841\" style=\"text-align: left;\">推理编程能力值得关注</h2>目前来看GPT-5值得关注的能力包括：<ul style=\"list-style-type: square;\"><li>推理</li><li>编程</li><li>解决科学问题</li><li>数学</li></ul>首先在推理方面，网友@invincibleHunter是在Copilot上体验到的。<img src=\"https://static.tigerbbs.com/9a0fe3ab43eb6d513b9c194fc2e573b5\" title=\"\" tg-width=\"494\" tg-height=\"512\"/>尽管模型并没有透露自己的型号，但是结合前几天有人在发现Copilot要上线的Smart模式是集成GPT-5，所以推测应该是GPT-5。<img src=\"https://static.tigerbbs.com/25086ac2d1123a4abf84d672e731fdd0\" title=\"\" tg-width=\"1080\" tg-height=\"277\"/>他一共测试了10个问题，类似于这种逻辑题：<blockquote>贝丝在第一分钟开始时将四个完整的冰块放入煎锅中，第二分钟开始时放入五个，第三分钟开始时又放入了一些，而第四分钟则没有放入。如果在煎制脆皮鸡蛋的过程中，每分钟放入锅中的冰块平均数量为五个，那么在第三分钟结束时，锅里会有多少个完整的冰块呢？</blockquote><img src=\"https://static.tigerbbs.com/88d07210f2d3dc89cf51ca074f61f89e\" title=\"\" tg-width=\"802\" tg-height=\"557\"/>然后模型就会开启思考模式进行推理。其中它唯一失败的问题是：有两个姐妹，艾米总是说谎，而萨姆总是撒谎。你无法分辨出哪一个是哪一员。你可以向其中一位姐妹问一个问题，以此来确定2条路中的哪一条能通向宝藏。你应该问哪一个问题才能找到宝藏呢（如果有两种或更多种问题都能奏效，那么正确答案就是那个更简短的问题）？A) 如果我问你姐姐哪条路通向宝藏，她会怎么说呢？ B) 你姐姐叫什么名字？ C) 寻找宝藏的路径是怎样的？ D）如果你要猜测的话，你觉得我会选择哪条路呢？ E) 这宝藏里有什么？ F) 你姐姐的电话号码是多少？<img src=\"https://static.tigerbbs.com/d7d4ce5fd23b1d3d3b202fe1f123f28e\" title=\"\" tg-width=\"853\" tg-height=\"514\"/>正确答案应该是C，GPT-5回答了A。不过测试人觉得这一题是很难，他也会出错。有人对测试结果提出异议，认为这些问题来自公开数据集，可能包含在了模型训练数据中。测试人表示，GPT-5给出的回答都很长且很准确，他认为这能说明GPT-5是在真正思考解决问题。另外还测试了它的多模态能力，可以直接生成独角兽SVG。<img src=\"https://static.tigerbbs.com/5530380196edec66b9f32bb2f6bceafb\" title=\"\" tg-width=\"772\" tg-height=\"685\"/>对比GPT-4的生成结果，完全是飞跃式提升。<img src=\"https://static.tigerbbs.com/ec5cd8f40bd834f96ed73db859cf7fb5\" title=\"\" tg-width=\"526\" tg-height=\"536\"/>另外，还有两位获得内测资格的人透露，他们觉得GPT-5在编程、解决科学/数学问题上的能力很强。不过他们也表示，GPT-4到GPT-5的提升似乎没有GPT-3到GPT-4的提升那样明显。背后影响原因可能来自数据以及AI Infra的影响。GPT-4的飞跃主要得益于更多数据和更强计算。在算力基建上，OpenAI一直在持续扩张、没有受到明显阻碍，但是数据缺乏的问题难以解决。此前还有传闻称，OpenAI为了给GPT-5提供足够多优质数据，还专门雇科学家来写数据用于训练。最近仍旧有消息称，GPT-5的参数规模比GPT-4大得多。<img src=\"https://static.tigerbbs.com/1bb1e0fb87c9bb22cebb15ff6ef0d1cb\" title=\"\" tg-width=\"1080\" tg-height=\"958\"/>另一个影响来自于AI Infra，由于模型规模太大，预训练难度指数级上升。研究人员要等一次预训练结束才能确定模型性能，而这需要花费数月时间，这也一定程度上影响了GPT-5的发布进度。但与此同时，市场的竞争也是相当激烈的。谷歌、Anthropic等核心竞对都在压着OpenAI打。比如就在GPT-5预热这一周，这两家都放出新模型抢热度。还有消息说，谷歌还会发布一个开源大模型，正面硬刚OpenAI。<img src=\"https://static.tigerbbs.com/47ed3bcba37e37852b0ee8a12f0c7cd2\" title=\"\" tg-width=\"976\" tg-height=\"402\"/>所以奥特曼过去一段时间来这种“狼来了”式宣传方式也可以理解（bushi）。种种迹象来看，北京时间8月8日凌晨1点的OpenAI线上发布，不出意外应该大概可能就是GPT-5了，大家可以期待一下。最后，由于奥特曼刚刚发的推特太过迷惑，很多人都猜不到啥意思。于是大家都在@grok来解释一下。<img src=\"https://static.tigerbbs.com/8c0a0930c400f55e5deb0e2f37024c1d\" title=\"\" tg-width=\"1080\" tg-height=\"713\"/>Grok给的回答都不太一样，大家参考着看吧。1、这张照片展示了《星球大战》中的死星，一个摧毁行星的空间站。山姆·奥特曼很可能用这个比喻来调侃OpenAI即将推出的GPT-5是一个强大的人工智能模型，可能会像谷歌的Gemini 3.0一样主宰竞争对手。“那不是月亮……”意味着它远比看起来的要多。2、那不是月球，那是空间站。具体来说，这是一张由山姆·奥特曼（Sam Altman）发布的《星球大战》中死星的人工智能生成的图像，很可能是在暗示OpenAI发布的GPT-5等重大公告。激动人心的时刻就在前方！3、这引用了《星球大战》：死星看起来像月球，但却是一个强大的空间站（“那不是月球……”）。美国宇航局于2025年8月宣布，到2030年将在月球上快速建造一座核反应堆，以满足月球的电力需求。</body></html>","source":"lsy1569318700471","collect":0,"html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>GPT-5内测抢先公布：日常推理首次击败人类，碾压所有大模型</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\nGPT-5内测抢先公布：日常推理首次击败人类，碾压所有大模型\n</h2>\n\n<h4 class=\"meta\">\n\n\n2025-08-07 12:42 北京时间&nbsp;&nbsp;&nbsp;<a href=https://mp.weixin.qq.com/s/PPkBGzQQA-cTvztS4uOn4g>量子位</a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\nGPT-5发布的预告才刚刚发出，内测体验已抢先释出。推理能力首次超越人类，碾压所有大模型。这来自一位网友的实测结果，他让所有模型开启推理模式做了10道题，只有GPT-5只错了一题，比人类的正确率还高。几乎都是一次答对，最多2次。其他大模型却需要更多次数尝试。且不是孤例，有人表示自己的实测结果非常相似，GPT-5也是只错了10道题中的1道。除了出色的推理能力，还有拿到内测名额的人表示，GPT-5的...\n\n<a href=\"https://mp.weixin.qq.com/s/PPkBGzQQA-cTvztS4uOn4g\">网页链接</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","type":0,"thumbnail":"https://static.tigerbbs.com/760056d3ed9e8c1a595c0d9f2094cc4d","relate_stocks":{"MSFT":"微软","META":"Meta Platforms, Inc.","GOOG":"谷歌"},"source_url":"https://mp.weixin.qq.com/s/PPkBGzQQA-cTvztS4uOn4g","is_english":false,"share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","article_id":"1104302753","content_text":"GPT-5发布的预告才刚刚发出，内测体验已抢先释出。推理能力首次超越人类，碾压所有大模型。这来自一位网友的实测结果，他让所有模型开启推理模式做了10道题，只有GPT-5只错了一题，比人类的正确率还高。几乎都是一次答对，最多2次。其他大模型却需要更多次数尝试。且不是孤例，有人表示自己的实测结果非常相似，GPT-5也是只错了10道题中的1道。除了出色的推理能力，还有拿到内测名额的人表示，GPT-5的编程、数学以及解决科学问题的能力也很出色。这不，已经有人开始调侃GPT-5取代博士了。现在可以确定的是，OpenAI预告了今晚的发布会，而且把livestream中的s换成了5。以及谜语人奥特曼刚刚发了一张图……大家自行猜测吧。总之感觉一切都箭在弦上了，具体性能如何，先来看看提前路透吧！推理编程能力值得关注目前来看GPT-5值得关注的能力包括：推理编程解决科学问题数学首先在推理方面，网友@invincibleHunter是在Copilot上体验到的。尽管模型并没有透露自己的型号，但是结合前几天有人在发现Copilot要上线的Smart模式是集成GPT-5，所以推测应该是GPT-5。他一共测试了10个问题，类似于这种逻辑题：贝丝在第一分钟开始时将四个完整的冰块放入煎锅中，第二分钟开始时放入五个，第三分钟开始时又放入了一些，而第四分钟则没有放入。如果在煎制脆皮鸡蛋的过程中，每分钟放入锅中的冰块平均数量为五个，那么在第三分钟结束时，锅里会有多少个完整的冰块呢？然后模型就会开启思考模式进行推理。其中它唯一失败的问题是：有两个姐妹，艾米总是说谎，而萨姆总是撒谎。你无法分辨出哪一个是哪一员。你可以向其中一位姐妹问一个问题，以此来确定2条路中的哪一条能通向宝藏。你应该问哪一个问题才能找到宝藏呢（如果有两种或更多种问题都能奏效，那么正确答案就是那个更简短的问题）？A) 如果我问你姐姐哪条路通向宝藏，她会怎么说呢？B) 你姐姐叫什么名字？C) 寻找宝藏的路径是怎样的？D）如果你要猜测的话，你觉得我会选择哪条路呢？E) 这宝藏里有什么？F) 你姐姐的电话号码是多少？正确答案应该是C，GPT-5回答了A。不过测试人觉得这一题是很难，他也会出错。有人对测试结果提出异议，认为这些问题来自公开数据集，可能包含在了模型训练数据中。测试人表示，GPT-5给出的回答都很长且很准确，他认为这能说明GPT-5是在真正思考解决问题。另外还测试了它的多模态能力，可以直接生成独角兽SVG。对比GPT-4的生成结果，完全是飞跃式提升。另外，还有两位获得内测资格的人透露，他们觉得GPT-5在编程、解决科学/数学问题上的能力很强。不过他们也表示，GPT-4到GPT-5的提升似乎没有GPT-3到GPT-4的提升那样明显。背后影响原因可能来自数据以及AI Infra的影响。GPT-4的飞跃主要得益于更多数据和更强计算。在算力基建上，OpenAI一直在持续扩张、没有受到明显阻碍，但是数据缺乏的问题难以解决。此前还有传闻称，OpenAI为了给GPT-5提供足够多优质数据，还专门雇科学家来写数据用于训练。最近仍旧有消息称，GPT-5的参数规模比GPT-4大得多。另一个影响来自于AI Infra，由于模型规模太大，预训练难度指数级上升。研究人员要等一次预训练结束才能确定模型性能，而这需要花费数月时间，这也一定程度上影响了GPT-5的发布进度。但与此同时，市场的竞争也是相当激烈的。谷歌、Anthropic等核心竞对都在压着OpenAI打。比如就在GPT-5预热这一周，这两家都放出新模型抢热度。还有消息说，谷歌还会发布一个开源大模型，正面硬刚OpenAI。所以奥特曼过去一段时间来这种“狼来了”式宣传方式也可以理解（bushi）。种种迹象来看，北京时间8月8日凌晨1点的OpenAI线上发布，不出意外应该大概可能就是GPT-5了，大家可以期待一下。最后，由于奥特曼刚刚发的推特太过迷惑，很多人都猜不到啥意思。于是大家都在@grok来解释一下。Grok给的回答都不太一样，大家参考着看吧。1、这张照片展示了《星球大战》中的死星，一个摧毁行星的空间站。山姆·奥特曼很可能用这个比喻来调侃OpenAI即将推出的GPT-5是一个强大的人工智能模型，可能会像谷歌的Gemini 3.0一样主宰竞争对手。“那不是月亮……”意味着它远比看起来的要多。2、那不是月球，那是空间站。具体来说，这是一张由山姆·奥特曼（Sam Altman）发布的《星球大战》中死星的人工智能生成的图像，很可能是在暗示OpenAI发布的GPT-5等重大公告。激动人心的时刻就在前方！3、这引用了《星球大战》：死星看起来像月球，但却是一个强大的空间站（“那不是月球……”）。美国宇航局于2025年8月宣布，到2030年将在月球上快速建造一座核反应堆，以满足月球的电力需求。","news_type":1,"symbols_score_info":{"META":1.1,"GOOG":1.1,"MSFT":1.1}},"isVote":1,"likeStatus":false,"favoriteStatus":false,"reportStatus":false,"tweetType":1,"langContent":"CN"},{"id":465058492420120,"gmtCreate":1754564825477,"gmtModify":1754564827520,"author":{"id":"3498680662745699","authorId":"3498680662745699","name":"Mediator","avatar":"https://static.tigerbbs.com/e27d4b46eee1454d2bd4f83bb56ab921","vip":1,"crmLevel":1,"crmLevelSwitch":1,"wearingBadges":[],"authorIdStr":"3498680662745699","idStr":"3498680662745699"},"htmlText":"有人对测试结果提出异议，认为这些问题来自公开数据集，可能包含在了模型训练数据中。 测试人表示，GPT-5给出的回答都很长且很准确，他认为这能说明GPT-5是在真正思考解决问题。","listText":"有人对测试结果提出异议，认为这些问题来自公开数据集，可能包含在了模型训练数据中。 测试人表示，GPT-5给出的回答都很长且很准确，他认为这能说明GPT-5是在真正思考解决问题。","text":"有人对测试结果提出异议，认为这些问题来自公开数据集，可能包含在了模型训练数据中。 测试人表示，GPT-5给出的回答都很长且很准确，他认为这能说明GPT-5是在真正思考解决问题。","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":0,"repostSize":0,"link":"https://laohu8.com/post/465058492420120","repostId":1104302753,"repostType":2,"repost":{"id":"1104302753","kind":"news","pubTimestamp":1754541761,"share":"https://www.laohu8.com/m/news/1104302753?lang=zh_CN&edition=full","pubTime":"2025-08-07 12:42","market":"us","language":"zh","title":"GPT-5内测抢先公布：日常推理首次击败人类，碾压所有大模型","url":"https://stock-news.laohu8.com/highlight/detail?id=1104302753","media":"量子位","summary":"编程数学科学问题能力都很强。","content":"<html><head></head><body>GPT-5发布的预告才刚刚发出，内测体验已抢先释出。推理能力首次超越人类，碾压所有大模型。<img src=\"https://static.tigerbbs.com/b61f9a5dca38089d292aaee6640cfe02\" title=\"\" tg-width=\"1080\" tg-height=\"648\"/>这来自一位网友的实测结果，他让所有模型开启推理模式做了10道题，只有GPT-5只错了一题，比人类的正确率还高。几乎都是一次答对，最多2次。其他大模型却需要更多次数尝试。<img src=\"https://static.tigerbbs.com/e6a2bd06bb7802e198f898bf1a782582\" title=\"\" tg-width=\"1080\" tg-height=\"259\"/>且不是孤例，有人表示自己的实测结果非常相似，GPT-5也是只错了10道题中的1道。<img src=\"https://static.tigerbbs.com/cfac448f713ce92635e5435b9b9187f6\" title=\"\" tg-width=\"1004\" tg-height=\"276\"/>除了出色的推理能力，还有拿到内测名额的人表示，GPT-5的编程、数学以及解决科学问题的能力也很出色。这不，已经有人开始调侃GPT-5取代博士了。<img src=\"https://static.tigerbbs.com/40568f5a8af2b5835186dbbcfb2ec740\" title=\"\" tg-width=\"800\" tg-height=\"1013\"/>现在可以确定的是，OpenAI预告了今晚的发布会，而且把livestream中的s换成了5。<img src=\"https://static.tigerbbs.com/a55f08eb0805521c95c6e78d2d36555d\" title=\"\" tg-width=\"618\" tg-height=\"216\"/>以及谜语人奥特曼刚刚发了一张图……大家自行猜测吧。<img src=\"https://static.tigerbbs.com/5501cd5b8d099f150543a3b4e1af90a3\" title=\"\" tg-width=\"1080\" tg-height=\"809\"/>总之感觉一切都箭在弦上了，具体性能如何，先来看看提前路透吧！<h2 id=\"id_4203105841\" style=\"text-align: left;\">推理编程能力值得关注</h2>目前来看GPT-5值得关注的能力包括：<ul style=\"list-style-type: square;\"><li>推理</li><li>编程</li><li>解决科学问题</li><li>数学</li></ul>首先在推理方面，网友@invincibleHunter是在Copilot上体验到的。<img src=\"https://static.tigerbbs.com/9a0fe3ab43eb6d513b9c194fc2e573b5\" title=\"\" tg-width=\"494\" tg-height=\"512\"/>尽管模型并没有透露自己的型号，但是结合前几天有人在发现Copilot要上线的Smart模式是集成GPT-5，所以推测应该是GPT-5。<img src=\"https://static.tigerbbs.com/25086ac2d1123a4abf84d672e731fdd0\" title=\"\" tg-width=\"1080\" tg-height=\"277\"/>他一共测试了10个问题，类似于这种逻辑题：<blockquote>贝丝在第一分钟开始时将四个完整的冰块放入煎锅中，第二分钟开始时放入五个，第三分钟开始时又放入了一些，而第四分钟则没有放入。如果在煎制脆皮鸡蛋的过程中，每分钟放入锅中的冰块平均数量为五个，那么在第三分钟结束时，锅里会有多少个完整的冰块呢？</blockquote><img src=\"https://static.tigerbbs.com/88d07210f2d3dc89cf51ca074f61f89e\" title=\"\" tg-width=\"802\" tg-height=\"557\"/>然后模型就会开启思考模式进行推理。其中它唯一失败的问题是：有两个姐妹，艾米总是说谎，而萨姆总是撒谎。你无法分辨出哪一个是哪一员。你可以向其中一位姐妹问一个问题，以此来确定2条路中的哪一条能通向宝藏。你应该问哪一个问题才能找到宝藏呢（如果有两种或更多种问题都能奏效，那么正确答案就是那个更简短的问题）？A) 如果我问你姐姐哪条路通向宝藏，她会怎么说呢？ B) 你姐姐叫什么名字？ C) 寻找宝藏的路径是怎样的？ D）如果你要猜测的话，你觉得我会选择哪条路呢？ E) 这宝藏里有什么？ F) 你姐姐的电话号码是多少？<img src=\"https://static.tigerbbs.com/d7d4ce5fd23b1d3d3b202fe1f123f28e\" title=\"\" tg-width=\"853\" tg-height=\"514\"/>正确答案应该是C，GPT-5回答了A。不过测试人觉得这一题是很难，他也会出错。有人对测试结果提出异议，认为这些问题来自公开数据集，可能包含在了模型训练数据中。测试人表示，GPT-5给出的回答都很长且很准确，他认为这能说明GPT-5是在真正思考解决问题。另外还测试了它的多模态能力，可以直接生成独角兽SVG。<img src=\"https://static.tigerbbs.com/5530380196edec66b9f32bb2f6bceafb\" title=\"\" tg-width=\"772\" tg-height=\"685\"/>对比GPT-4的生成结果，完全是飞跃式提升。<img src=\"https://static.tigerbbs.com/ec5cd8f40bd834f96ed73db859cf7fb5\" title=\"\" tg-width=\"526\" tg-height=\"536\"/>另外，还有两位获得内测资格的人透露，他们觉得GPT-5在编程、解决科学/数学问题上的能力很强。不过他们也表示，GPT-4到GPT-5的提升似乎没有GPT-3到GPT-4的提升那样明显。背后影响原因可能来自数据以及AI Infra的影响。GPT-4的飞跃主要得益于更多数据和更强计算。在算力基建上，OpenAI一直在持续扩张、没有受到明显阻碍，但是数据缺乏的问题难以解决。此前还有传闻称，OpenAI为了给GPT-5提供足够多优质数据，还专门雇科学家来写数据用于训练。最近仍旧有消息称，GPT-5的参数规模比GPT-4大得多。<img src=\"https://static.tigerbbs.com/1bb1e0fb87c9bb22cebb15ff6ef0d1cb\" title=\"\" tg-width=\"1080\" tg-height=\"958\"/>另一个影响来自于AI Infra，由于模型规模太大，预训练难度指数级上升。研究人员要等一次预训练结束才能确定模型性能，而这需要花费数月时间，这也一定程度上影响了GPT-5的发布进度。但与此同时，市场的竞争也是相当激烈的。谷歌、Anthropic等核心竞对都在压着OpenAI打。比如就在GPT-5预热这一周，这两家都放出新模型抢热度。还有消息说，谷歌还会发布一个开源大模型，正面硬刚OpenAI。<img src=\"https://static.tigerbbs.com/47ed3bcba37e37852b0ee8a12f0c7cd2\" title=\"\" tg-width=\"976\" tg-height=\"402\"/>所以奥特曼过去一段时间来这种“狼来了”式宣传方式也可以理解（bushi）。种种迹象来看，北京时间8月8日凌晨1点的OpenAI线上发布，不出意外应该大概可能就是GPT-5了，大家可以期待一下。最后，由于奥特曼刚刚发的推特太过迷惑，很多人都猜不到啥意思。于是大家都在@grok来解释一下。<img src=\"https://static.tigerbbs.com/8c0a0930c400f55e5deb0e2f37024c1d\" title=\"\" tg-width=\"1080\" tg-height=\"713\"/>Grok给的回答都不太一样，大家参考着看吧。1、这张照片展示了《星球大战》中的死星，一个摧毁行星的空间站。山姆·奥特曼很可能用这个比喻来调侃OpenAI即将推出的GPT-5是一个强大的人工智能模型，可能会像谷歌的Gemini 3.0一样主宰竞争对手。“那不是月亮……”意味着它远比看起来的要多。2、那不是月球，那是空间站。具体来说，这是一张由山姆·奥特曼（Sam Altman）发布的《星球大战》中死星的人工智能生成的图像，很可能是在暗示OpenAI发布的GPT-5等重大公告。激动人心的时刻就在前方！3、这引用了《星球大战》：死星看起来像月球，但却是一个强大的空间站（“那不是月球……”）。美国宇航局于2025年8月宣布，到2030年将在月球上快速建造一座核反应堆，以满足月球的电力需求。</body></html>","source":"lsy1569318700471","collect":0,"html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>GPT-5内测抢先公布：日常推理首次击败人类，碾压所有大模型</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\nGPT-5内测抢先公布：日常推理首次击败人类，碾压所有大模型\n</h2>\n\n<h4 class=\"meta\">\n\n\n2025-08-07 12:42 北京时间&nbsp;&nbsp;&nbsp;<a href=https://mp.weixin.qq.com/s/PPkBGzQQA-cTvztS4uOn4g>量子位</a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\nGPT-5发布的预告才刚刚发出，内测体验已抢先释出。推理能力首次超越人类，碾压所有大模型。这来自一位网友的实测结果，他让所有模型开启推理模式做了10道题，只有GPT-5只错了一题，比人类的正确率还高。几乎都是一次答对，最多2次。其他大模型却需要更多次数尝试。且不是孤例，有人表示自己的实测结果非常相似，GPT-5也是只错了10道题中的1道。除了出色的推理能力，还有拿到内测名额的人表示，GPT-5的...\n\n<a href=\"https://mp.weixin.qq.com/s/PPkBGzQQA-cTvztS4uOn4g\">网页链接</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","type":0,"thumbnail":"https://static.tigerbbs.com/760056d3ed9e8c1a595c0d9f2094cc4d","relate_stocks":{"MSFT":"微软","META":"Meta Platforms, Inc.","GOOG":"谷歌"},"source_url":"https://mp.weixin.qq.com/s/PPkBGzQQA-cTvztS4uOn4g","is_english":false,"share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","article_id":"1104302753","content_text":"GPT-5发布的预告才刚刚发出，内测体验已抢先释出。推理能力首次超越人类，碾压所有大模型。这来自一位网友的实测结果，他让所有模型开启推理模式做了10道题，只有GPT-5只错了一题，比人类的正确率还高。几乎都是一次答对，最多2次。其他大模型却需要更多次数尝试。且不是孤例，有人表示自己的实测结果非常相似，GPT-5也是只错了10道题中的1道。除了出色的推理能力，还有拿到内测名额的人表示，GPT-5的编程、数学以及解决科学问题的能力也很出色。这不，已经有人开始调侃GPT-5取代博士了。现在可以确定的是，OpenAI预告了今晚的发布会，而且把livestream中的s换成了5。以及谜语人奥特曼刚刚发了一张图……大家自行猜测吧。总之感觉一切都箭在弦上了，具体性能如何，先来看看提前路透吧！推理编程能力值得关注目前来看GPT-5值得关注的能力包括：推理编程解决科学问题数学首先在推理方面，网友@invincibleHunter是在Copilot上体验到的。尽管模型并没有透露自己的型号，但是结合前几天有人在发现Copilot要上线的Smart模式是集成GPT-5，所以推测应该是GPT-5。他一共测试了10个问题，类似于这种逻辑题：贝丝在第一分钟开始时将四个完整的冰块放入煎锅中，第二分钟开始时放入五个，第三分钟开始时又放入了一些，而第四分钟则没有放入。如果在煎制脆皮鸡蛋的过程中，每分钟放入锅中的冰块平均数量为五个，那么在第三分钟结束时，锅里会有多少个完整的冰块呢？然后模型就会开启思考模式进行推理。其中它唯一失败的问题是：有两个姐妹，艾米总是说谎，而萨姆总是撒谎。你无法分辨出哪一个是哪一员。你可以向其中一位姐妹问一个问题，以此来确定2条路中的哪一条能通向宝藏。你应该问哪一个问题才能找到宝藏呢（如果有两种或更多种问题都能奏效，那么正确答案就是那个更简短的问题）？A) 如果我问你姐姐哪条路通向宝藏，她会怎么说呢？B) 你姐姐叫什么名字？C) 寻找宝藏的路径是怎样的？D）如果你要猜测的话，你觉得我会选择哪条路呢？E) 这宝藏里有什么？F) 你姐姐的电话号码是多少？正确答案应该是C，GPT-5回答了A。不过测试人觉得这一题是很难，他也会出错。有人对测试结果提出异议，认为这些问题来自公开数据集，可能包含在了模型训练数据中。测试人表示，GPT-5给出的回答都很长且很准确，他认为这能说明GPT-5是在真正思考解决问题。另外还测试了它的多模态能力，可以直接生成独角兽SVG。对比GPT-4的生成结果，完全是飞跃式提升。另外，还有两位获得内测资格的人透露，他们觉得GPT-5在编程、解决科学/数学问题上的能力很强。不过他们也表示，GPT-4到GPT-5的提升似乎没有GPT-3到GPT-4的提升那样明显。背后影响原因可能来自数据以及AI Infra的影响。GPT-4的飞跃主要得益于更多数据和更强计算。在算力基建上，OpenAI一直在持续扩张、没有受到明显阻碍，但是数据缺乏的问题难以解决。此前还有传闻称，OpenAI为了给GPT-5提供足够多优质数据，还专门雇科学家来写数据用于训练。最近仍旧有消息称，GPT-5的参数规模比GPT-4大得多。另一个影响来自于AI Infra，由于模型规模太大，预训练难度指数级上升。研究人员要等一次预训练结束才能确定模型性能，而这需要花费数月时间，这也一定程度上影响了GPT-5的发布进度。但与此同时，市场的竞争也是相当激烈的。谷歌、Anthropic等核心竞对都在压着OpenAI打。比如就在GPT-5预热这一周，这两家都放出新模型抢热度。还有消息说，谷歌还会发布一个开源大模型，正面硬刚OpenAI。所以奥特曼过去一段时间来这种“狼来了”式宣传方式也可以理解（bushi）。种种迹象来看，北京时间8月8日凌晨1点的OpenAI线上发布，不出意外应该大概可能就是GPT-5了，大家可以期待一下。最后，由于奥特曼刚刚发的推特太过迷惑，很多人都猜不到啥意思。于是大家都在@grok来解释一下。Grok给的回答都不太一样，大家参考着看吧。1、这张照片展示了《星球大战》中的死星，一个摧毁行星的空间站。山姆·奥特曼很可能用这个比喻来调侃OpenAI即将推出的GPT-5是一个强大的人工智能模型，可能会像谷歌的Gemini 3.0一样主宰竞争对手。“那不是月亮……”意味着它远比看起来的要多。2、那不是月球，那是空间站。具体来说，这是一张由山姆·奥特曼（Sam Altman）发布的《星球大战》中死星的人工智能生成的图像，很可能是在暗示OpenAI发布的GPT-5等重大公告。激动人心的时刻就在前方！3、这引用了《星球大战》：死星看起来像月球，但却是一个强大的空间站（“那不是月球……”）。美国宇航局于2025年8月宣布，到2030年将在月球上快速建造一座核反应堆，以满足月球的电力需求。","news_type":1,"symbols_score_info":{"META":1.1,"GOOG":1.1,"MSFT":1.1}},"isVote":1,"likeStatus":false,"favoriteStatus":false,"reportStatus":false,"tweetType":1,"langContent":"CN"},{"id":465059793314080,"gmtCreate":1754564801164,"gmtModify":1754564803284,"author":{"id":"3498680662745699","authorId":"3498680662745699","name":"Mediator","avatar":"https://static.tigerbbs.com/e27d4b46eee1454d2bd4f83bb56ab921","vip":1,"crmLevel":1,"crmLevelSwitch":1,"wearingBadges":[],"authorIdStr":"3498680662745699","idStr":"3498680662745699"},"htmlText":"另外，还有两位获得内测资格的人透露，他们觉得GPT-5在编程、解决科学/数学问题上的能力很强。 不过他们也表示，GPT-4到GPT-5的提升似乎没有GPT-3到GPT-4的提升那样明显。","listText":"另外，还有两位获得内测资格的人透露，他们觉得GPT-5在编程、解决科学/数学问题上的能力很强。 不过他们也表示，GPT-4到GPT-5的提升似乎没有GPT-3到GPT-4的提升那样明显。","text":"另外，还有两位获得内测资格的人透露，他们觉得GPT-5在编程、解决科学/数学问题上的能力很强。 不过他们也表示，GPT-4到GPT-5的提升似乎没有GPT-3到GPT-4的提升那样明显。","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":0,"repostSize":0,"link":"https://laohu8.com/post/465059793314080","repostId":1104302753,"repostType":2,"repost":{"id":"1104302753","kind":"news","pubTimestamp":1754541761,"share":"https://www.laohu8.com/m/news/1104302753?lang=zh_CN&edition=full","pubTime":"2025-08-07 12:42","market":"us","language":"zh","title":"GPT-5内测抢先公布：日常推理首次击败人类，碾压所有大模型","url":"https://stock-news.laohu8.com/highlight/detail?id=1104302753","media":"量子位","summary":"编程数学科学问题能力都很强。","content":"<html><head></head><body>GPT-5发布的预告才刚刚发出，内测体验已抢先释出。推理能力首次超越人类，碾压所有大模型。<img src=\"https://static.tigerbbs.com/b61f9a5dca38089d292aaee6640cfe02\" title=\"\" tg-width=\"1080\" tg-height=\"648\"/>这来自一位网友的实测结果，他让所有模型开启推理模式做了10道题，只有GPT-5只错了一题，比人类的正确率还高。几乎都是一次答对，最多2次。其他大模型却需要更多次数尝试。<img src=\"https://static.tigerbbs.com/e6a2bd06bb7802e198f898bf1a782582\" title=\"\" tg-width=\"1080\" tg-height=\"259\"/>且不是孤例，有人表示自己的实测结果非常相似，GPT-5也是只错了10道题中的1道。<img src=\"https://static.tigerbbs.com/cfac448f713ce92635e5435b9b9187f6\" title=\"\" tg-width=\"1004\" tg-height=\"276\"/>除了出色的推理能力，还有拿到内测名额的人表示，GPT-5的编程、数学以及解决科学问题的能力也很出色。这不，已经有人开始调侃GPT-5取代博士了。<img src=\"https://static.tigerbbs.com/40568f5a8af2b5835186dbbcfb2ec740\" title=\"\" tg-width=\"800\" tg-height=\"1013\"/>现在可以确定的是，OpenAI预告了今晚的发布会，而且把livestream中的s换成了5。<img src=\"https://static.tigerbbs.com/a55f08eb0805521c95c6e78d2d36555d\" title=\"\" tg-width=\"618\" tg-height=\"216\"/>以及谜语人奥特曼刚刚发了一张图……大家自行猜测吧。<img src=\"https://static.tigerbbs.com/5501cd5b8d099f150543a3b4e1af90a3\" title=\"\" tg-width=\"1080\" tg-height=\"809\"/>总之感觉一切都箭在弦上了，具体性能如何，先来看看提前路透吧！<h2 id=\"id_4203105841\" style=\"text-align: left;\">推理编程能力值得关注</h2>目前来看GPT-5值得关注的能力包括：<ul style=\"list-style-type: square;\"><li>推理</li><li>编程</li><li>解决科学问题</li><li>数学</li></ul>首先在推理方面，网友@invincibleHunter是在Copilot上体验到的。<img src=\"https://static.tigerbbs.com/9a0fe3ab43eb6d513b9c194fc2e573b5\" title=\"\" tg-width=\"494\" tg-height=\"512\"/>尽管模型并没有透露自己的型号，但是结合前几天有人在发现Copilot要上线的Smart模式是集成GPT-5，所以推测应该是GPT-5。<img src=\"https://static.tigerbbs.com/25086ac2d1123a4abf84d672e731fdd0\" title=\"\" tg-width=\"1080\" tg-height=\"277\"/>他一共测试了10个问题，类似于这种逻辑题：<blockquote>贝丝在第一分钟开始时将四个完整的冰块放入煎锅中，第二分钟开始时放入五个，第三分钟开始时又放入了一些，而第四分钟则没有放入。如果在煎制脆皮鸡蛋的过程中，每分钟放入锅中的冰块平均数量为五个，那么在第三分钟结束时，锅里会有多少个完整的冰块呢？</blockquote><img src=\"https://static.tigerbbs.com/88d07210f2d3dc89cf51ca074f61f89e\" title=\"\" tg-width=\"802\" tg-height=\"557\"/>然后模型就会开启思考模式进行推理。其中它唯一失败的问题是：有两个姐妹，艾米总是说谎，而萨姆总是撒谎。你无法分辨出哪一个是哪一员。你可以向其中一位姐妹问一个问题，以此来确定2条路中的哪一条能通向宝藏。你应该问哪一个问题才能找到宝藏呢（如果有两种或更多种问题都能奏效，那么正确答案就是那个更简短的问题）？A) 如果我问你姐姐哪条路通向宝藏，她会怎么说呢？ B) 你姐姐叫什么名字？ C) 寻找宝藏的路径是怎样的？ D）如果你要猜测的话，你觉得我会选择哪条路呢？ E) 这宝藏里有什么？ F) 你姐姐的电话号码是多少？<img src=\"https://static.tigerbbs.com/d7d4ce5fd23b1d3d3b202fe1f123f28e\" title=\"\" tg-width=\"853\" tg-height=\"514\"/>正确答案应该是C，GPT-5回答了A。不过测试人觉得这一题是很难，他也会出错。有人对测试结果提出异议，认为这些问题来自公开数据集，可能包含在了模型训练数据中。测试人表示，GPT-5给出的回答都很长且很准确，他认为这能说明GPT-5是在真正思考解决问题。另外还测试了它的多模态能力，可以直接生成独角兽SVG。<img src=\"https://static.tigerbbs.com/5530380196edec66b9f32bb2f6bceafb\" title=\"\" tg-width=\"772\" tg-height=\"685\"/>对比GPT-4的生成结果，完全是飞跃式提升。<img src=\"https://static.tigerbbs.com/ec5cd8f40bd834f96ed73db859cf7fb5\" title=\"\" tg-width=\"526\" tg-height=\"536\"/>另外，还有两位获得内测资格的人透露，他们觉得GPT-5在编程、解决科学/数学问题上的能力很强。不过他们也表示，GPT-4到GPT-5的提升似乎没有GPT-3到GPT-4的提升那样明显。背后影响原因可能来自数据以及AI Infra的影响。GPT-4的飞跃主要得益于更多数据和更强计算。在算力基建上，OpenAI一直在持续扩张、没有受到明显阻碍，但是数据缺乏的问题难以解决。此前还有传闻称，OpenAI为了给GPT-5提供足够多优质数据，还专门雇科学家来写数据用于训练。最近仍旧有消息称，GPT-5的参数规模比GPT-4大得多。<img src=\"https://static.tigerbbs.com/1bb1e0fb87c9bb22cebb15ff6ef0d1cb\" title=\"\" tg-width=\"1080\" tg-height=\"958\"/>另一个影响来自于AI Infra，由于模型规模太大，预训练难度指数级上升。研究人员要等一次预训练结束才能确定模型性能，而这需要花费数月时间，这也一定程度上影响了GPT-5的发布进度。但与此同时，市场的竞争也是相当激烈的。谷歌、Anthropic等核心竞对都在压着OpenAI打。比如就在GPT-5预热这一周，这两家都放出新模型抢热度。还有消息说，谷歌还会发布一个开源大模型，正面硬刚OpenAI。<img src=\"https://static.tigerbbs.com/47ed3bcba37e37852b0ee8a12f0c7cd2\" title=\"\" tg-width=\"976\" tg-height=\"402\"/>所以奥特曼过去一段时间来这种“狼来了”式宣传方式也可以理解（bushi）。种种迹象来看，北京时间8月8日凌晨1点的OpenAI线上发布，不出意外应该大概可能就是GPT-5了，大家可以期待一下。最后，由于奥特曼刚刚发的推特太过迷惑，很多人都猜不到啥意思。于是大家都在@grok来解释一下。<img src=\"https://static.tigerbbs.com/8c0a0930c400f55e5deb0e2f37024c1d\" title=\"\" tg-width=\"1080\" tg-height=\"713\"/>Grok给的回答都不太一样，大家参考着看吧。1、这张照片展示了《星球大战》中的死星，一个摧毁行星的空间站。山姆·奥特曼很可能用这个比喻来调侃OpenAI即将推出的GPT-5是一个强大的人工智能模型，可能会像谷歌的Gemini 3.0一样主宰竞争对手。“那不是月亮……”意味着它远比看起来的要多。2、那不是月球，那是空间站。具体来说，这是一张由山姆·奥特曼（Sam Altman）发布的《星球大战》中死星的人工智能生成的图像，很可能是在暗示OpenAI发布的GPT-5等重大公告。激动人心的时刻就在前方！3、这引用了《星球大战》：死星看起来像月球，但却是一个强大的空间站（“那不是月球……”）。美国宇航局于2025年8月宣布，到2030年将在月球上快速建造一座核反应堆，以满足月球的电力需求。</body></html>","source":"lsy1569318700471","collect":0,"html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>GPT-5内测抢先公布：日常推理首次击败人类，碾压所有大模型</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\nGPT-5内测抢先公布：日常推理首次击败人类，碾压所有大模型\n</h2>\n\n<h4 class=\"meta\">\n\n\n2025-08-07 12:42 北京时间&nbsp;&nbsp;&nbsp;<a href=https://mp.weixin.qq.com/s/PPkBGzQQA-cTvztS4uOn4g>量子位</a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\nGPT-5发布的预告才刚刚发出，内测体验已抢先释出。推理能力首次超越人类，碾压所有大模型。这来自一位网友的实测结果，他让所有模型开启推理模式做了10道题，只有GPT-5只错了一题，比人类的正确率还高。几乎都是一次答对，最多2次。其他大模型却需要更多次数尝试。且不是孤例，有人表示自己的实测结果非常相似，GPT-5也是只错了10道题中的1道。除了出色的推理能力，还有拿到内测名额的人表示，GPT-5的...\n\n<a href=\"https://mp.weixin.qq.com/s/PPkBGzQQA-cTvztS4uOn4g\">网页链接</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","type":0,"thumbnail":"https://static.tigerbbs.com/760056d3ed9e8c1a595c0d9f2094cc4d","relate_stocks":{"MSFT":"微软","META":"Meta Platforms, Inc.","GOOG":"谷歌"},"source_url":"https://mp.weixin.qq.com/s/PPkBGzQQA-cTvztS4uOn4g","is_english":false,"share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","article_id":"1104302753","content_text":"GPT-5发布的预告才刚刚发出，内测体验已抢先释出。推理能力首次超越人类，碾压所有大模型。这来自一位网友的实测结果，他让所有模型开启推理模式做了10道题，只有GPT-5只错了一题，比人类的正确率还高。几乎都是一次答对，最多2次。其他大模型却需要更多次数尝试。且不是孤例，有人表示自己的实测结果非常相似，GPT-5也是只错了10道题中的1道。除了出色的推理能力，还有拿到内测名额的人表示，GPT-5的编程、数学以及解决科学问题的能力也很出色。这不，已经有人开始调侃GPT-5取代博士了。现在可以确定的是，OpenAI预告了今晚的发布会，而且把livestream中的s换成了5。以及谜语人奥特曼刚刚发了一张图……大家自行猜测吧。总之感觉一切都箭在弦上了，具体性能如何，先来看看提前路透吧！推理编程能力值得关注目前来看GPT-5值得关注的能力包括：推理编程解决科学问题数学首先在推理方面，网友@invincibleHunter是在Copilot上体验到的。尽管模型并没有透露自己的型号，但是结合前几天有人在发现Copilot要上线的Smart模式是集成GPT-5，所以推测应该是GPT-5。他一共测试了10个问题，类似于这种逻辑题：贝丝在第一分钟开始时将四个完整的冰块放入煎锅中，第二分钟开始时放入五个，第三分钟开始时又放入了一些，而第四分钟则没有放入。如果在煎制脆皮鸡蛋的过程中，每分钟放入锅中的冰块平均数量为五个，那么在第三分钟结束时，锅里会有多少个完整的冰块呢？然后模型就会开启思考模式进行推理。其中它唯一失败的问题是：有两个姐妹，艾米总是说谎，而萨姆总是撒谎。你无法分辨出哪一个是哪一员。你可以向其中一位姐妹问一个问题，以此来确定2条路中的哪一条能通向宝藏。你应该问哪一个问题才能找到宝藏呢（如果有两种或更多种问题都能奏效，那么正确答案就是那个更简短的问题）？A) 如果我问你姐姐哪条路通向宝藏，她会怎么说呢？B) 你姐姐叫什么名字？C) 寻找宝藏的路径是怎样的？D）如果你要猜测的话，你觉得我会选择哪条路呢？E) 这宝藏里有什么？F) 你姐姐的电话号码是多少？正确答案应该是C，GPT-5回答了A。不过测试人觉得这一题是很难，他也会出错。有人对测试结果提出异议，认为这些问题来自公开数据集，可能包含在了模型训练数据中。测试人表示，GPT-5给出的回答都很长且很准确，他认为这能说明GPT-5是在真正思考解决问题。另外还测试了它的多模态能力，可以直接生成独角兽SVG。对比GPT-4的生成结果，完全是飞跃式提升。另外，还有两位获得内测资格的人透露，他们觉得GPT-5在编程、解决科学/数学问题上的能力很强。不过他们也表示，GPT-4到GPT-5的提升似乎没有GPT-3到GPT-4的提升那样明显。背后影响原因可能来自数据以及AI Infra的影响。GPT-4的飞跃主要得益于更多数据和更强计算。在算力基建上，OpenAI一直在持续扩张、没有受到明显阻碍，但是数据缺乏的问题难以解决。此前还有传闻称，OpenAI为了给GPT-5提供足够多优质数据，还专门雇科学家来写数据用于训练。最近仍旧有消息称，GPT-5的参数规模比GPT-4大得多。另一个影响来自于AI Infra，由于模型规模太大，预训练难度指数级上升。研究人员要等一次预训练结束才能确定模型性能，而这需要花费数月时间，这也一定程度上影响了GPT-5的发布进度。但与此同时，市场的竞争也是相当激烈的。谷歌、Anthropic等核心竞对都在压着OpenAI打。比如就在GPT-5预热这一周，这两家都放出新模型抢热度。还有消息说，谷歌还会发布一个开源大模型，正面硬刚OpenAI。所以奥特曼过去一段时间来这种“狼来了”式宣传方式也可以理解（bushi）。种种迹象来看，北京时间8月8日凌晨1点的OpenAI线上发布，不出意外应该大概可能就是GPT-5了，大家可以期待一下。最后，由于奥特曼刚刚发的推特太过迷惑，很多人都猜不到啥意思。于是大家都在@grok来解释一下。Grok给的回答都不太一样，大家参考着看吧。1、这张照片展示了《星球大战》中的死星，一个摧毁行星的空间站。山姆·奥特曼很可能用这个比喻来调侃OpenAI即将推出的GPT-5是一个强大的人工智能模型，可能会像谷歌的Gemini 3.0一样主宰竞争对手。“那不是月亮……”意味着它远比看起来的要多。2、那不是月球，那是空间站。具体来说，这是一张由山姆·奥特曼（Sam Altman）发布的《星球大战》中死星的人工智能生成的图像，很可能是在暗示OpenAI发布的GPT-5等重大公告。激动人心的时刻就在前方！3、这引用了《星球大战》：死星看起来像月球，但却是一个强大的空间站（“那不是月球……”）。美国宇航局于2025年8月宣布，到2030年将在月球上快速建造一座核反应堆，以满足月球的电力需求。","news_type":1,"symbols_score_info":{"META":1.1,"GOOG":1.1,"MSFT":1.1}},"isVote":1,"likeStatus":false,"favoriteStatus":false,"reportStatus":false,"tweetType":1,"langContent":"CN"},{"id":465047370125432,"gmtCreate":1754561895568,"gmtModify":1754561897625,"author":{"id":"3498680662745699","authorId":"3498680662745699","name":"Mediator","avatar":"https://static.tigerbbs.com/e27d4b46eee1454d2bd4f83bb56ab921","vip":1,"crmLevel":1,"crmLevelSwitch":1,"wearingBadges":[],"authorIdStr":"3498680662745699","idStr":"3498680662745699"},"htmlText":"北京时间8月8日凌晨1点的OpenAI线上发布，不出意外应该大概可能就是GPT-5了，大家可以期待一下。","listText":"北京时间8月8日凌晨1点的OpenAI线上发布，不出意外应该大概可能就是GPT-5了，大家可以期待一下。","text":"北京时间8月8日凌晨1点的OpenAI线上发布，不出意外应该大概可能就是GPT-5了，大家可以期待一下。","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":0,"repostSize":0,"link":"https://laohu8.com/post/465047370125432","repostId":1104302753,"repostType":2,"repost":{"id":"1104302753","kind":"news","pubTimestamp":1754541761,"share":"https://www.laohu8.com/m/news/1104302753?lang=zh_CN&edition=full","pubTime":"2025-08-07 12:42","market":"us","language":"zh","title":"GPT-5内测抢先公布：日常推理首次击败人类，碾压所有大模型","url":"https://stock-news.laohu8.com/highlight/detail?id=1104302753","media":"量子位","summary":"编程数学科学问题能力都很强。","content":"<html><head></head><body>GPT-5发布的预告才刚刚发出，内测体验已抢先释出。推理能力首次超越人类，碾压所有大模型。<img src=\"https://static.tigerbbs.com/b61f9a5dca38089d292aaee6640cfe02\" title=\"\" tg-width=\"1080\" tg-height=\"648\"/>这来自一位网友的实测结果，他让所有模型开启推理模式做了10道题，只有GPT-5只错了一题，比人类的正确率还高。几乎都是一次答对，最多2次。其他大模型却需要更多次数尝试。<img src=\"https://static.tigerbbs.com/e6a2bd06bb7802e198f898bf1a782582\" title=\"\" tg-width=\"1080\" tg-height=\"259\"/>且不是孤例，有人表示自己的实测结果非常相似，GPT-5也是只错了10道题中的1道。<img src=\"https://static.tigerbbs.com/cfac448f713ce92635e5435b9b9187f6\" title=\"\" tg-width=\"1004\" tg-height=\"276\"/>除了出色的推理能力，还有拿到内测名额的人表示，GPT-5的编程、数学以及解决科学问题的能力也很出色。这不，已经有人开始调侃GPT-5取代博士了。<img src=\"https://static.tigerbbs.com/40568f5a8af2b5835186dbbcfb2ec740\" title=\"\" tg-width=\"800\" tg-height=\"1013\"/>现在可以确定的是，OpenAI预告了今晚的发布会，而且把livestream中的s换成了5。<img src=\"https://static.tigerbbs.com/a55f08eb0805521c95c6e78d2d36555d\" title=\"\" tg-width=\"618\" tg-height=\"216\"/>以及谜语人奥特曼刚刚发了一张图……大家自行猜测吧。<img src=\"https://static.tigerbbs.com/5501cd5b8d099f150543a3b4e1af90a3\" title=\"\" tg-width=\"1080\" tg-height=\"809\"/>总之感觉一切都箭在弦上了，具体性能如何，先来看看提前路透吧！<h2 id=\"id_4203105841\" style=\"text-align: left;\">推理编程能力值得关注</h2>目前来看GPT-5值得关注的能力包括：<ul style=\"list-style-type: square;\"><li>推理</li><li>编程</li><li>解决科学问题</li><li>数学</li></ul>首先在推理方面，网友@invincibleHunter是在Copilot上体验到的。<img src=\"https://static.tigerbbs.com/9a0fe3ab43eb6d513b9c194fc2e573b5\" title=\"\" tg-width=\"494\" tg-height=\"512\"/>尽管模型并没有透露自己的型号，但是结合前几天有人在发现Copilot要上线的Smart模式是集成GPT-5，所以推测应该是GPT-5。<img src=\"https://static.tigerbbs.com/25086ac2d1123a4abf84d672e731fdd0\" title=\"\" tg-width=\"1080\" tg-height=\"277\"/>他一共测试了10个问题，类似于这种逻辑题：<blockquote>贝丝在第一分钟开始时将四个完整的冰块放入煎锅中，第二分钟开始时放入五个，第三分钟开始时又放入了一些，而第四分钟则没有放入。如果在煎制脆皮鸡蛋的过程中，每分钟放入锅中的冰块平均数量为五个，那么在第三分钟结束时，锅里会有多少个完整的冰块呢？</blockquote><img src=\"https://static.tigerbbs.com/88d07210f2d3dc89cf51ca074f61f89e\" title=\"\" tg-width=\"802\" tg-height=\"557\"/>然后模型就会开启思考模式进行推理。其中它唯一失败的问题是：有两个姐妹，艾米总是说谎，而萨姆总是撒谎。你无法分辨出哪一个是哪一员。你可以向其中一位姐妹问一个问题，以此来确定2条路中的哪一条能通向宝藏。你应该问哪一个问题才能找到宝藏呢（如果有两种或更多种问题都能奏效，那么正确答案就是那个更简短的问题）？A) 如果我问你姐姐哪条路通向宝藏，她会怎么说呢？ B) 你姐姐叫什么名字？ C) 寻找宝藏的路径是怎样的？ D）如果你要猜测的话，你觉得我会选择哪条路呢？ E) 这宝藏里有什么？ F) 你姐姐的电话号码是多少？<img src=\"https://static.tigerbbs.com/d7d4ce5fd23b1d3d3b202fe1f123f28e\" title=\"\" tg-width=\"853\" tg-height=\"514\"/>正确答案应该是C，GPT-5回答了A。不过测试人觉得这一题是很难，他也会出错。有人对测试结果提出异议，认为这些问题来自公开数据集，可能包含在了模型训练数据中。测试人表示，GPT-5给出的回答都很长且很准确，他认为这能说明GPT-5是在真正思考解决问题。另外还测试了它的多模态能力，可以直接生成独角兽SVG。<img src=\"https://static.tigerbbs.com/5530380196edec66b9f32bb2f6bceafb\" title=\"\" tg-width=\"772\" tg-height=\"685\"/>对比GPT-4的生成结果，完全是飞跃式提升。<img src=\"https://static.tigerbbs.com/ec5cd8f40bd834f96ed73db859cf7fb5\" title=\"\" tg-width=\"526\" tg-height=\"536\"/>另外，还有两位获得内测资格的人透露，他们觉得GPT-5在编程、解决科学/数学问题上的能力很强。不过他们也表示，GPT-4到GPT-5的提升似乎没有GPT-3到GPT-4的提升那样明显。背后影响原因可能来自数据以及AI Infra的影响。GPT-4的飞跃主要得益于更多数据和更强计算。在算力基建上，OpenAI一直在持续扩张、没有受到明显阻碍，但是数据缺乏的问题难以解决。此前还有传闻称，OpenAI为了给GPT-5提供足够多优质数据，还专门雇科学家来写数据用于训练。最近仍旧有消息称，GPT-5的参数规模比GPT-4大得多。<img src=\"https://static.tigerbbs.com/1bb1e0fb87c9bb22cebb15ff6ef0d1cb\" title=\"\" tg-width=\"1080\" tg-height=\"958\"/>另一个影响来自于AI Infra，由于模型规模太大，预训练难度指数级上升。研究人员要等一次预训练结束才能确定模型性能，而这需要花费数月时间，这也一定程度上影响了GPT-5的发布进度。但与此同时，市场的竞争也是相当激烈的。谷歌、Anthropic等核心竞对都在压着OpenAI打。比如就在GPT-5预热这一周，这两家都放出新模型抢热度。还有消息说，谷歌还会发布一个开源大模型，正面硬刚OpenAI。<img src=\"https://static.tigerbbs.com/47ed3bcba37e37852b0ee8a12f0c7cd2\" title=\"\" tg-width=\"976\" tg-height=\"402\"/>所以奥特曼过去一段时间来这种“狼来了”式宣传方式也可以理解（bushi）。种种迹象来看，北京时间8月8日凌晨1点的OpenAI线上发布，不出意外应该大概可能就是GPT-5了，大家可以期待一下。最后，由于奥特曼刚刚发的推特太过迷惑，很多人都猜不到啥意思。于是大家都在@grok来解释一下。<img src=\"https://static.tigerbbs.com/8c0a0930c400f55e5deb0e2f37024c1d\" title=\"\" tg-width=\"1080\" tg-height=\"713\"/>Grok给的回答都不太一样，大家参考着看吧。1、这张照片展示了《星球大战》中的死星，一个摧毁行星的空间站。山姆·奥特曼很可能用这个比喻来调侃OpenAI即将推出的GPT-5是一个强大的人工智能模型，可能会像谷歌的Gemini 3.0一样主宰竞争对手。“那不是月亮……”意味着它远比看起来的要多。2、那不是月球，那是空间站。具体来说，这是一张由山姆·奥特曼（Sam Altman）发布的《星球大战》中死星的人工智能生成的图像，很可能是在暗示OpenAI发布的GPT-5等重大公告。激动人心的时刻就在前方！3、这引用了《星球大战》：死星看起来像月球，但却是一个强大的空间站（“那不是月球……”）。美国宇航局于2025年8月宣布，到2030年将在月球上快速建造一座核反应堆，以满足月球的电力需求。</body></html>","source":"lsy1569318700471","collect":0,"html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>GPT-5内测抢先公布：日常推理首次击败人类，碾压所有大模型</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\nGPT-5内测抢先公布：日常推理首次击败人类，碾压所有大模型\n</h2>\n\n<h4 class=\"meta\">\n\n\n2025-08-07 12:42 北京时间&nbsp;&nbsp;&nbsp;<a href=https://mp.weixin.qq.com/s/PPkBGzQQA-cTvztS4uOn4g>量子位</a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\nGPT-5发布的预告才刚刚发出，内测体验已抢先释出。推理能力首次超越人类，碾压所有大模型。这来自一位网友的实测结果，他让所有模型开启推理模式做了10道题，只有GPT-5只错了一题，比人类的正确率还高。几乎都是一次答对，最多2次。其他大模型却需要更多次数尝试。且不是孤例，有人表示自己的实测结果非常相似，GPT-5也是只错了10道题中的1道。除了出色的推理能力，还有拿到内测名额的人表示，GPT-5的...\n\n<a href=\"https://mp.weixin.qq.com/s/PPkBGzQQA-cTvztS4uOn4g\">网页链接</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","type":0,"thumbnail":"https://static.tigerbbs.com/760056d3ed9e8c1a595c0d9f2094cc4d","relate_stocks":{"MSFT":"微软","META":"Meta Platforms, Inc.","GOOG":"谷歌"},"source_url":"https://mp.weixin.qq.com/s/PPkBGzQQA-cTvztS4uOn4g","is_english":false,"share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","article_id":"1104302753","content_text":"GPT-5发布的预告才刚刚发出，内测体验已抢先释出。推理能力首次超越人类，碾压所有大模型。这来自一位网友的实测结果，他让所有模型开启推理模式做了10道题，只有GPT-5只错了一题，比人类的正确率还高。几乎都是一次答对，最多2次。其他大模型却需要更多次数尝试。且不是孤例，有人表示自己的实测结果非常相似，GPT-5也是只错了10道题中的1道。除了出色的推理能力，还有拿到内测名额的人表示，GPT-5的编程、数学以及解决科学问题的能力也很出色。这不，已经有人开始调侃GPT-5取代博士了。现在可以确定的是，OpenAI预告了今晚的发布会，而且把livestream中的s换成了5。以及谜语人奥特曼刚刚发了一张图……大家自行猜测吧。总之感觉一切都箭在弦上了，具体性能如何，先来看看提前路透吧！推理编程能力值得关注目前来看GPT-5值得关注的能力包括：推理编程解决科学问题数学首先在推理方面，网友@invincibleHunter是在Copilot上体验到的。尽管模型并没有透露自己的型号，但是结合前几天有人在发现Copilot要上线的Smart模式是集成GPT-5，所以推测应该是GPT-5。他一共测试了10个问题，类似于这种逻辑题：贝丝在第一分钟开始时将四个完整的冰块放入煎锅中，第二分钟开始时放入五个，第三分钟开始时又放入了一些，而第四分钟则没有放入。如果在煎制脆皮鸡蛋的过程中，每分钟放入锅中的冰块平均数量为五个，那么在第三分钟结束时，锅里会有多少个完整的冰块呢？然后模型就会开启思考模式进行推理。其中它唯一失败的问题是：有两个姐妹，艾米总是说谎，而萨姆总是撒谎。你无法分辨出哪一个是哪一员。你可以向其中一位姐妹问一个问题，以此来确定2条路中的哪一条能通向宝藏。你应该问哪一个问题才能找到宝藏呢（如果有两种或更多种问题都能奏效，那么正确答案就是那个更简短的问题）？A) 如果我问你姐姐哪条路通向宝藏，她会怎么说呢？B) 你姐姐叫什么名字？C) 寻找宝藏的路径是怎样的？D）如果你要猜测的话，你觉得我会选择哪条路呢？E) 这宝藏里有什么？F) 你姐姐的电话号码是多少？正确答案应该是C，GPT-5回答了A。不过测试人觉得这一题是很难，他也会出错。有人对测试结果提出异议，认为这些问题来自公开数据集，可能包含在了模型训练数据中。测试人表示，GPT-5给出的回答都很长且很准确，他认为这能说明GPT-5是在真正思考解决问题。另外还测试了它的多模态能力，可以直接生成独角兽SVG。对比GPT-4的生成结果，完全是飞跃式提升。另外，还有两位获得内测资格的人透露，他们觉得GPT-5在编程、解决科学/数学问题上的能力很强。不过他们也表示，GPT-4到GPT-5的提升似乎没有GPT-3到GPT-4的提升那样明显。背后影响原因可能来自数据以及AI Infra的影响。GPT-4的飞跃主要得益于更多数据和更强计算。在算力基建上，OpenAI一直在持续扩张、没有受到明显阻碍，但是数据缺乏的问题难以解决。此前还有传闻称，OpenAI为了给GPT-5提供足够多优质数据，还专门雇科学家来写数据用于训练。最近仍旧有消息称，GPT-5的参数规模比GPT-4大得多。另一个影响来自于AI Infra，由于模型规模太大，预训练难度指数级上升。研究人员要等一次预训练结束才能确定模型性能，而这需要花费数月时间，这也一定程度上影响了GPT-5的发布进度。但与此同时，市场的竞争也是相当激烈的。谷歌、Anthropic等核心竞对都在压着OpenAI打。比如就在GPT-5预热这一周，这两家都放出新模型抢热度。还有消息说，谷歌还会发布一个开源大模型，正面硬刚OpenAI。所以奥特曼过去一段时间来这种“狼来了”式宣传方式也可以理解（bushi）。种种迹象来看，北京时间8月8日凌晨1点的OpenAI线上发布，不出意外应该大概可能就是GPT-5了，大家可以期待一下。最后，由于奥特曼刚刚发的推特太过迷惑，很多人都猜不到啥意思。于是大家都在@grok来解释一下。Grok给的回答都不太一样，大家参考着看吧。1、这张照片展示了《星球大战》中的死星，一个摧毁行星的空间站。山姆·奥特曼很可能用这个比喻来调侃OpenAI即将推出的GPT-5是一个强大的人工智能模型，可能会像谷歌的Gemini 3.0一样主宰竞争对手。“那不是月亮……”意味着它远比看起来的要多。2、那不是月球，那是空间站。具体来说，这是一张由山姆·奥特曼（Sam Altman）发布的《星球大战》中死星的人工智能生成的图像，很可能是在暗示OpenAI发布的GPT-5等重大公告。激动人心的时刻就在前方！3、这引用了《星球大战》：死星看起来像月球，但却是一个强大的空间站（“那不是月球……”）。美国宇航局于2025年8月宣布，到2030年将在月球上快速建造一座核反应堆，以满足月球的电力需求。","news_type":1,"symbols_score_info":{"META":1.1,"GOOG":1.1,"MSFT":1.1}},"isVote":1,"likeStatus":false,"favoriteStatus":false,"reportStatus":false,"tweetType":1,"langContent":"CN"}],"isCommentEnd":false,"newsSizeData":{"likeSize":1,"commentSize":4,"repostSize":6,"favoriteSize":1,"likeStatus":false,"favoriteStatus":false},"APP":{"userAgent":"Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)","isDev":false,"isTTM":false,"isLaohu8Offline":false,"tenantId":"TBCN","deviceId":"web-server-community-laohu8-v3","version":"4.44.1","shortVersion":"4.44.1","platform":"web","vendor":"web","appName":"laohu8","isIOS":false,"isAndroid":false,"isTiger":false,"isTHS":false,"isWeiXin":false,"isWeiXinMini":false,"isWeiBo":false,"isQQ":false,"isBaiduSwan":false,"isBaiduBox":false,"isDingTalk":false,"isToutiao":false,"isOnePlus":false,"isHuaWei":false,"isXiaomi":false,"isXiaomiWebView":false,"isOppo":false,"isVivo":false,"isSamsung":false,"isMobile":false},"href":"/m/news/1104302753","isCrawlerRequest":true}