Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet

华尔街见闻2024-12-26

还没等到官宣，Deepseek-v3竟意外曝光了？！据Reddit网友爆料，v3已在API和网页上发布，一些榜单跑分也新鲜出炉。在Aider多语言编程测试排行榜中，Deepseek-v3一举超越Claude 3.5 Sonnet，排在第1位的o1之后。（相比Deepseek-v2.5，完成率从17.8%大幅上涨至48.4%。）且在LiveBench测评中，它是当前最强开源LLM，并在...

网页链接

免责声明：本文观点仅代表作者个人观点，不构成本平台的投资建议，本平台不对文章信息准确性、完整性和及时性做出任何保证，亦不对因使用或信赖文章信息引发的任何损失承担责任。

精彩评论

我们需要你的真知灼见来填补这片空白

发表看法

{"i18n":{"language":"zh_CN"},"isChannel":false,"data":{"share":"https://www.laohu8.com/m/news/2494384948?lang=zh_CN&edition=full","thumbnail":"https://wpimg-wscn.awtmt.com/b2a2cfd9-6843-4ef5-9a92-6a014f24d974.png","is_english":false,"pubTime":"2024-12-26 14:58","share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","id":"2494384948","market":"us","top_or_hot":-1,"title":"Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet","media":"华尔街见闻","content":"<div>\n<p>还没等到官宣，Deepseek-v3竟意外曝光了？！\n\n据Reddit网友爆料，v3已在API和网页上发布，一些榜单跑分也新鲜出炉。\n\n在Aider多语言编程测试排行榜中，Deepseek-v3一举超越Claude 3.5 Sonnet，排在第1位的o1之后。\n（相比Deepseek-v2.5，完成率从17.8%大幅上涨至48.4%。）\n\n且在LiveBench测评中，它是当前最强开源LLM，并在...</p>\n\n<a href=\"https://wallstreetcn.com/articles/3737811\">网页链接</a>\n\n</div>\n","source":"wallstreetcn_hot_news","html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\nDeepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet\n</h2>\n\n<h4 class=\"meta\">\n\n\n2024-12-26 14:58 北京时间&nbsp;&nbsp;&nbsp;<a href=https://wallstreetcn.com/articles/3737811><strong>华尔街见闻</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>还没等到官宣，Deepseek-v3竟意外曝光了？！\n\n据Reddit网友爆料，v3已在API和网页上发布，一些榜单跑分也新鲜出炉。\n\n在Aider多语言编程测试排行榜中，Deepseek-v3一举超越Claude 3.5 Sonnet，排在第1位的o1之后。\n（相比Deepseek-v2.5，完成率从17.8%大幅上涨至48.4%。）\n\n且在LiveBench测评中，它是当前最强开源LLM，并在...</p>\n\n<a href=\"https://wallstreetcn.com/articles/3737811\">网页链接</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","isBrief":false,"type":0,"news_type":1,"symbol":"BK4588","symbol_name":"碎股","start_time":0,"source_url":"https://wallstreetcn.com/articles/3737811","article_id":"2494384948","we_media_id":null,"thumbnails":["https://wpimg-wscn.awtmt.com/b2a2cfd9-6843-4ef5-9a92-6a014f24d974.png"],"rights":null,"url":"https://stock-news.laohu8.com/highlight/detail?id=2494384948","pubTimestamp":1735196319,"columns":[],"sourceInfo":{"source_id":"wallstreetcn_hot_news","name":"华尔街见闻"},"weMediaInfo":null,"summary":"在Aider多语言编程测试排行榜中，Deepseek-v3一举超越Claude 3.5 Sonnet，排在第1位的o1之后。且在LiveBench测评中，它是当前最强开源LLM，并在非推理模型中仅次于gemini-exp-1206，排在第二。","collect":0,"end_time":0,"defaultTopTitle":"wallstreetcn.com","property":[],"viewcount":null,"language":"zh","relate_stocks":{"BK4588":"碎股","BK4585":"ETF&股票定投概念","VB":"小型股指数ETF-Vanguard MSCI"},"translate_title":"Deepseek new model unexpectedly revealed! Programming running score surpasses Claude 3.5 Sonnet in one fell swoop","themeId":null,"isJumpTheme":false,"ttsUrl":null,"symbols_score_info":{"VB":1},"content_text":"还没等到官宣，Deepseek-v3竟意外曝光了？！\n\n据Reddit网友爆料，v3已在API和网页上发布，一些榜单跑分也新鲜出炉。\n\n在Aider多语言编程测试排行榜中，Deepseek-v3一举超越Claude 3.5 Sonnet，排在第1位的o1之后。\n（相比Deepseek-v2.5，完成率从17.8%大幅上涨至48.4%。）\n\n且在LiveBench测评中，它是当前最强开源LLM，并在非推理模型中仅次于gemini-exp-1206，排在第二。\n\n目前Hugging Face上已经有了Deepseek-v3（Base）的开源权重，只不过还没上传模型介绍卡片。\n\n综合网上多方爆料来看，Deepseek-v3相比前代v2、v2.5有了极大提升——\n与v2、v2.5配置对比\n首先，Deepseek-v3基本配置如下：\n\n\n采用685B参数的MoE架构；\n\n\n包含256个专家，使用sigmoid函数作为路由方式，每次选取前8个专家 (Top-k=8)；\n\n\n支持64K上下文，默认支持4K，最长支持8K上下文；\n\n\n约60个tokens/s；\n\n\nBTW，在Aider测评中击败Claude 3.5 Sonnet的还是Instruct版本（该版本目前未发布）。\n\n为了进一步了解Deepseek-v3的升级程度，机器学习爱好者Vaibhav (VB) Srivastav（以下简称瓦哥）还深入研究了配置文件，并总结出v3与v2、v2.5的关键区别。\n与v2（今年5月6日官宣开源）比较的结果，经AI整理成表格如下：\n\n可以看出，v3几乎是v2的放大版，在每一项参数上均有较大提升。\n而且瓦哥重点指出了模型结构的三个关键变化：\n第一，在MOE结构中，v3使用了sigmoid作为门控函数，取代了v2中的softmax函数。这允许模型在更大的专家集合上进行选择，而不像softmax函数倾向于将输入分配给少数几个专家。\n第二，v3引入了一个新的Top-k选择方法noaux_tc，它不需要辅助损失。\n简单理解，MoE模型通常需要一个辅助损失来帮助训练，主要用于更好地学习如何选择Top-k个最相关的专家来处理每个输入样本。\n而新方法能在不依赖辅助损失的情况下，直接通过主要任务的损失函数来有效地选择Top-k个专家。这有助于简化训练过程并提高训练效率。\n对了，为便于理解，瓦哥用DeepSeek逐步解释了这一方法。\n\n这是一种基于群体的专家选择算法，通过将专家划分为不同的小组，并在每个小组内部选择最优秀的k名专家。\n\n\n第三，v3增加了一个新参数e_score_correction_bias，用于调整专家评分，从而在专家选择或模型训练过程中获得更好的性能。\n\n此外，v3与v2.5（本月10日官宣开源）的比较也出炉了，后者主要支持联网搜索功能，相比v2全面提升了各项能力。\n\n同样经AI整理成表格如下：\n\n具体而言，v3在配置上超越了v2.5，包括更多的专家数量、更大的中间层尺寸，以及每个token的专家数量。\n看完上述结果，瓦哥连连表示，明年有机会一定要见见中国的开源团队。(doge）\n\n网友实测Deepseek-v3\n关于v3的实际表现，另一独立开发者Simon Willison（Web开发框架Django的创始人之一）也在第一时间上手测试了。\n比如先来个自报家门。\n\n我是DeepSeek-V3，基于OpenAI的GPT-4架构……\n\n\n再考考图像生成能力，生成一张鹈鹕骑自行车的SVG图。\n\n最终图形be like:\n\n对了，在另一网友的测试中，Deepseek-v3也回答自己来自OpenAI？？\n\n该网友推测，这可能是因为在训练时使用了OpenAI模型的回复。\n\n不过不管怎样，还未正式官宣的Deepseek-v3已在LiveBench坐上最强开源LLM宝座，在一些网友心中，这比只搞期货的OpenAI遥遥领先。(手动狗头）\n\n本文来源：量子位，原文标题：《Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet》风险提示及免责条款\n\n            市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。","kind":"news","is_publish_news":true,"is_publish_highlight":false,"is_publish_live":false,"is_publish_wemedia":null,"editions":null,"column":"","sentiment":"1","news_tag":"","news_rank":0,"isVideo":false,"video":null,"symbols":[],"gpt_button":1,"need_auth":false,"need_login_tip":false,"code":"91000000","status":"200"},"commentList":[],"isCommentEnd":true,"newsSizeData":{"likeSize":0,"commentSize":0,"repostSize":0,"favoriteSize":0,"likeStatus":false,"favoriteStatus":false},"APP":{"userAgent":"Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)","isDev":false,"isTTM":false,"tenantId":"TBCN","deviceId":"web-server-community-laohu8-v3","version":"4.43.1","shortVersion":"4.43.1","platform":"web","vendor":"web","appName":"laohu8","isIOS":false,"isAndroid":false,"isTiger":false,"isTHS":false,"isWeiXin":false,"isWeiXinMini":false,"isWeiBo":false,"isQQ":false,"isBaiduSwan":false,"isBaiduBox":false,"isDingTalk":false,"isToutiao":false,"isOnePlus":false,"isHuaWei":false,"isXiaomi":false,"isXiaomiWebView":false,"isOppo":false,"isVivo":false,"isSamsung":false,"isMobile":false},"href":"/m/news/2494384948","isCrawlerRequest":true}