MiniMax 开源新评测集:定义Coding Agent 的生产级标准
@ME調研:
MiniMax正式开源首个面向CodingAgent的系统性评测集OctoCodingBench。评测结果显示,部分开源模型在过程合规指标上已快速逼近甚至超越部分闭源模型,反映出在Agent时代,“数据与评测范式”的重要性正在上升为新的竞争要素。 MiniMax 官方发文: 在CodingAgent的实际应用中,我们观察到一个反复出现,却常被忽略的的现象:用户对Agent的不满,往往不是因为它“做不到”,而是因为它“做得不好”。 通过整理用户体感反馈,我们发现最高频的抱怨集中在:Agent不遵循明确给出的指令。比如用户在系统提示中明确要求“不要使用emoji”,Agent却在代码注释里加上笑脸;用户要求“先备份再修改”,Agent直接[rm-rf]删除文件;用户在项目文档中规定了命名规范,Agent却自行其是。 这些问题的共同特征是:任务最终可能完成了,但过程违反了规范。用户要的不只是“能跑的代码”,还有“符合团队协作规范的代码”。 01为什么CodingAgent 需要新的Bench 如果我们认为,遵循过程规范的CodingAgent,才能被放心地引入真实的软件工程流程中。那么目前主流CodeAgent的评估体系就出现了明显的盲区。随着ClaudeCode、Codex、Cursor、Windsurf等Agent产品的普及,社区正在形成一套面向Agent的仓库协议体系。项目不再只是一堆代码,同时也包含了多层次协作模式的说明: [CLAUDE.md]/[AGENTS.md]:告诉Agent“这个项目怎么玩”——命名约定、测试流程、禁用的危险操作等 Skills:封装可复用的工作流(如“生成API文档”),Agent需要正确识别触发时机并按规范调用 Memory:跨会话保存用户偏好和任务进度,Agent需要基于历史状态继续工作,而非从头开始 这些机制的出现,本质上是在构建一个多