全球厂商前十！云知声登上LLM Stats 排行榜_老虎社区_美港股上老虎 - 老虎社区

点赞
评论
收藏

全球厂商前十！云知声登上LLM Stats 排行榜

云知声
11:21

今日，海外权威 AI 模型评测平台 LLM Stats 更新榜单，云知声 U2 登上两项关键评测：在 LLM Stats Score 综合能力榜单中进入模型总榜前 30，按厂商最佳模型成绩位列全球模型厂商第九；同时，在平台收录的独立长上下文评测基准 LongBench-V2 中，U2 以 54.4% 的Accuracy 超越 Claude Opus 4.7。

LLM Stats Score 不是为了刷榜而设计的单一测试集排名，而是面向真实工作负载构建的综合能力评分体系。其综合分数来自公开来源、独立采样测量与经验证的 benchmark 结果。在此基础上，LLM Stats Score 覆盖推理、代码、知识、工具与智能体、长上下文等多个维度，更接近对模型综合战斗力的横向检验。

LongBench-V2 则是当前长上下文推理领域的高难度评测基准之一。该测试集包含 503 道多选题，上下文长度覆盖 8K 至 2M words，并按 short、medium、long 三个长度区间分别评估模型表现，覆盖单文档问答、多文档问答、长上下文学习、长对话历史理解、代码库理解和长结构化数据理解六大类任务，重点检验模型在不同上下文规模下处理长任务的稳定性。

两项评测成绩，正是 U2 在通用能力与复杂任务处理上持续突破的最好证明。

而支撑这一切的，是 U2 “高智能密度 × 高 Token 价值”的核心技术主张：作为云知声面向真实任务执行打造的原生智能体大模型，U2一方面通过更高效的模型结构和能力承载方式，在更少激活资源下释放更强推理能力；另一方面通过混合思考机制、长上下文理解和任务链路规划能力，让每一次调用、每一个 Token 都更接近有效交付。

接下来，U2 将持续围绕复杂推理、长文本处理、代码生成与 Agent 任务执行等方向优化，不断提升在真实工作流中的交付能力，做更懂任务执行的大模型。

🔗榜单公示链接：https://llm-stats.com/✨欢迎体验 U2：https://maas.unisound.com/models/u2

免责声明：上述内容仅代表发帖人个人观点，不构成本平台的任何投资建议。

点赞

举报

评论

推荐
最新

empty

暂无评论

热议股票

{"i18n":{"language":"zh_CN"},"data":{"magic":2,"id":573924854212872,"tweetId":"573924854212872","gmtCreate":1781148086725,"gmtModify":1781154824182,"author":{"id":4214121108650770,"idStr":"4214121108650770","authorId":4214121108650770,"authorIdStr":"4214121108650770","name":"云知声","avatar":"https://static.tigerbbs.com/54dca0229fb745caf2d54415e378ef2b","vip":5,"userType":5,"introduction":"以通用人工智能（AGI），创造互联、直觉的世界！","boolIsFan":false,"boolIsHead":false,"crmLevel":1,"crmLevelSwitch":0,"individualDisplayBadges":[],"wearingBadges":[],"fanSize":2450,"starInvestorFlag":false},"themes":[],"images":[{"img":"https://static.tigerbbs.com/7b8a77712b963bb6f20dc806c092733b","width":"1242","height":"1660"},{"img":"https://static.tigerbbs.com/3a9cc0c7fcdaba1d482245dfddce3138","width":"1242","height":"1660"}],"coverImages":[{"img":"https://static.tigerbbs.com/7b8a77712b963bb6f20dc806c092733b","width":"1242","height":"1660"}],"title":"全球厂商前十！云知声登上LLM Stats 排行榜","html":"<html><head></head><body><p></p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/7b8a77712b963bb6f20dc806c092733b\" tg-width=\"1242\" tg-height=\"1660\"></p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/3a9cc0c7fcdaba1d482245dfddce3138\" tg-width=\"1242\" tg-height=\"1660\"></p>\n<p>今日，海外权威 AI 模型评测平台 LLM Stats 更新榜单，云知声 U2 登上两项关键评测：在 LLM Stats Score 综合能力榜单中进入模型总榜前 30，按厂商最佳模型成绩位列全球模型厂商第九；同时，在平台收录的独立长上下文评测基准 LongBench-V2 中，U2 以 54.4% 的Accuracy 超越 Claude Opus 4.7。</p>\n<p>LLM Stats Score 不是为了刷榜而设计的单一测试集排名，而是面向真实工作负载构建的综合能力评分体系。其综合分数来自公开来源、独立采样测量与经验证的 benchmark 结果。在此基础上，LLM Stats Score 覆盖推理、代码、知识、工具与智能体、长上下文等多个维度，更接近对模型综合战斗力的横向检验。</p>\n<p>LongBench-V2 则是当前长上下文推理领域的高难度评测基准之一。该测试集包含 503 道多选题，上下文长度覆盖 8K 至 2M words，并按 short、medium、long 三个长度区间分别评估模型表现，覆盖单文档问答、多文档问答、长上下文学习、长对话历史理解、代码库理解和长结构化数据理解六大类任务，重点检验模型在不同上下文规模下处理长任务的稳定性。</p>\n<p>两项评测成绩，正是 U2 在通用能力与复杂任务处理上持续突破的最好证明。</p>\n<p>而支撑这一切的，是 U2 “高智能密度 × 高 Token 价值”的核心技术主张：作为云知声面向真实任务执行打造的原生智能体大模型，U2一方面通过更高效的模型结构和能力承载方式，在更少激活资源下释放更强推理能力；另一方面通过混合思考机制、长上下文理解和任务链路规划能力，让每一次调用、每一个 Token 都更接近有效交付。</p>\n<p>接下来，U2 将持续围绕复杂推理、长文本处理、代码生成与 Agent 任务执行等方向优化，不断提升在真实工作流中的交付能力，做更懂任务执行的大模型。</p>\n<p>🔗榜单公示链接：https://llm-stats.com/✨欢迎体验 U2：https://maas.unisound.com/models/u2</p></body></html>","htmlText":"<html><head></head><body><p></p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/7b8a77712b963bb6f20dc806c092733b\" tg-width=\"1242\" tg-height=\"1660\"></p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/3a9cc0c7fcdaba1d482245dfddce3138\" tg-width=\"1242\" tg-height=\"1660\"></p>\n<p>今日，海外权威 AI 模型评测平台 LLM Stats 更新榜单，云知声 U2 登上两项关键评测：在 LLM Stats Score 综合能力榜单中进入模型总榜前 30，按厂商最佳模型成绩位列全球模型厂商第九；同时，在平台收录的独立长上下文评测基准 LongBench-V2 中，U2 以 54.4% 的Accuracy 超越 Claude Opus 4.7。</p>\n<p>LLM Stats Score 不是为了刷榜而设计的单一测试集排名，而是面向真实工作负载构建的综合能力评分体系。其综合分数来自公开来源、独立采样测量与经验证的 benchmark 结果。在此基础上，LLM Stats Score 覆盖推理、代码、知识、工具与智能体、长上下文等多个维度，更接近对模型综合战斗力的横向检验。</p>\n<p>LongBench-V2 则是当前长上下文推理领域的高难度评测基准之一。该测试集包含 503 道多选题，上下文长度覆盖 8K 至 2M words，并按 short、medium、long 三个长度区间分别评估模型表现，覆盖单文档问答、多文档问答、长上下文学习、长对话历史理解、代码库理解和长结构化数据理解六大类任务，重点检验模型在不同上下文规模下处理长任务的稳定性。</p>\n<p>两项评测成绩，正是 U2 在通用能力与复杂任务处理上持续突破的最好证明。</p>\n<p>而支撑这一切的，是 U2 “高智能密度 × 高 Token 价值”的核心技术主张：作为云知声面向真实任务执行打造的原生智能体大模型，U2一方面通过更高效的模型结构和能力承载方式，在更少激活资源下释放更强推理能力；另一方面通过混合思考机制、长上下文理解和任务链路规划能力，让每一次调用、每一个 Token 都更接近有效交付。</p>\n<p>接下来，U2 将持续围绕复杂推理、长文本处理、代码生成与 Agent 任务执行等方向优化，不断提升在真实工作流中的交付能力，做更懂任务执行的大模型。</p>\n<p>🔗榜单公示链接：https://llm-stats.com/✨欢迎体验 U2：https://maas.unisound.com/models/u2</p></body></html>","text":"今日，海外权威 AI 模型评测平台 LLM Stats 更新榜单，云知声 U2 登上两项关键评测：在 LLM Stats Score 综合能力榜单中进入模型总榜前 30，按厂商最佳模型成绩位列全球模型厂商第九；同时，在平台收录的独立长上下文评测基准 LongBench-V2 中，U2 以 54.4% 的Accuracy 超越 Claude Opus 4.7。 LLM Stats Score 不是为了刷榜而设计的单一测试集排名，而是面向真实工作负载构建的综合能力评分体系。其综合分数来自公开来源、独立采样测量与经验证的 benchmark 结果。在此基础上，LLM Stats Score 覆盖推理、代码、知识、工具与智能体、长上下文等多个维度，更接近对模型综合战斗力的横向检验。 LongBench-V2 则是当前长上下文推理领域的高难度评测基准之一。该测试集包含 503 道多选题，上下文长度覆盖 8K 至 2M words，并按 short、medium、long 三个长度区间分别评估模型表现，覆盖单文档问答、多文档问答、长上下文学习、长对话历史理解、代码库理解和长结构化数据理解六大类任务，重点检验模型在不同上下文规模下处理长任务的稳定性。 两项评测成绩，正是 U2 在通用能力与复杂任务处理上持续突破的最好证明。 而支撑这一切的，是 U2 “高智能密度 × 高 Token 价值”的核心技术主张：作为云知声面向真实任务执行打造的原生智能体大模型，U2一方面通过更高效的模型结构和能力承载方式，在更少激活资源下释放更强推理能力；另一方面通过混合思考机制、长上下文理解和任务链路规划能力，让每一次调用、每一个 Token 都更接近有效交付。 接下来，U2 将持续围绕复杂推理、长文本处理、代码生成与 Agent 任务执行等方向优化，不断提升在真实工作流中的交付能力，做更懂任务执行的大模型。 🔗榜单公示链接：https://llm-stats.com/✨欢迎体验 U2：https://maas.unisound.com/models/u2","highlighted":1,"essential":1,"paper":2,"likeSize":0,"commentSize":0,"repostSize":0,"favoriteSize":0,"link":"https://laohu8.com/post/573924854212872","repostId":0,"isVote":1,"tweetType":1,"viewCount":5616,"commentLimit":10,"likeStatus":false,"favoriteStatus":false,"reportStatus":false,"symbols":["09678"],"verified":2,"subType":0,"readableState":1,"langContent":"CN","currentLanguage":"CN","warmUpFlag":false,"orderFlag":false,"shareable":true,"causeOfNotShareable":"","featuresForAnalytics":[],"commentAndTweetFlag":false,"andRepostAutoSelectedFlag":false,"upFlag":false,"length":1357,"optionInvolvedFlag":false,"xxTargetLangEnum":"ZH_CN"},"commentList":[],"hasMoreComment":false,"orderType":2}