博客
文章系列日历
归档关于搜索

鄂ICP备19019526号

© 2026 博客

  1. 文章
  2. 当基准说“你对了”但产品说“还不行”:2026 年 AI 能力度量的真实地基

当基准说“你对了”但产品说“还不行”:2026 年 AI 能力度量的真实地基

2026年6月14日·约 22 分钟·6546 字·3 次阅读
大模型研究
当基准说“你对了”但产品说“还不行”:2026 年 AI 能力度量的真实地基

目录

  • 引言:被反复警告的"基准错觉"
  • 一、地基一:METR TH1.1 把"7 个月翻一倍"修正成了"131 天翻一倍"
  • 1.1 原始论文给出的曲线(2025-03)
  • 1.2 TH1.1 修正后的曲线(2026-01-29)
  • 1.3 翻倍曲线本身的不确定性
  • 二、地基二:Anthropic ASL 把"评估"从"得分"变成了"部署前置条件"
  • 2.1 MMLU 的 4 个被点名的脆弱性
  • 2.2 ASL 阈值体系:两个具体的"部署前必须过"的门
  • 2.3 从"得分"到"部署前置条件"的范式转移
  • 三、地基三:SWE-bench、HLE 与 EvoMaster 的三榜交叉
  • 3.1 SWE-bench Verified:从 13% 到 79.2%,但榜首之间差距 < 5%
  • 3.2 HLE:被设计为"短期不可饱和",但 16 个月就被打到 38.3%→41.1%
  • 3.3 三榜交叉:能力度量的"三角验证"开始成形
  • 四、地基之下的隐忧:分数通胀与"评估-部署"的脱钩
  • 五、对从业者的三个落地建议
  • 5.1 不要把单一基准分数当作能力结论
  • 5.2 把"能力阈值"纳入上线 checklist
  • 5.3 给基准设计者:把"饱和曲线"作为元数据发布
  • 六、总结与展望
  • 参考资料

当基准说"你对了"但产品说"还不行":2026 年 AI 能力度量的真实地基

引言:被反复警告的"基准错觉"

过去两年,AI 行业反复陷入同一种尴尬——SOTA 模型在基准榜单上勇创新高,但在真实部署中却"测不准"。MMLU 改一个括号的方向精度能波动 5%–10%(Anthropic 2023 年评估挑战原文措辞);SWE-bench Verified 榜首从 2024 年初的 ~13% 一路爬到 2026-06 的 79.2%,但同样是这个榜首模型,跑生产代码任务时还是要人类工程团队"打补丁 + 兜底";Humanity's Last Exam(HLE)设计初衷是"短期不会被饱和",然而 2026 年 4 月 EvoMaster 已经在它上面拿到 41.1%,远超同年 1 月 Gemini 3 Pro 的 38.3%。

更令人不安的是同一份榜单里"两位数百分点的差距"在不同上下文里完全可能翻转——一个 76.8% 的 SWE-bench Verified 得分看似优秀,但当 Anthropic 团队把这些模型的"算法分(按 PR 单测通过率)"和"整体分(METR 研究员 rubric 评审)"拆开对比,发现两套评分可以指向完全不同的结论:模型通过单测,但功能上无法直接落地。

这一切指向同一个判断:单一基准的"精度分"已经无法承担"能力度量"的全部重量。本文不重复"基准为什么失效"的老话——这一观点在 LLM 评估领域已成共识——而是想从三个最新一手数据出发,给出 2026 年下半年能力度量正在向哪里迁移的真实地基。这三块地基分别是:METR 时间视野(TH1.1)修正后的"翻倍曲线"、Anthropic ASL 阈值体系如何把"评估"转化为"部署前置条件",以及 SWE-bench + HLE + EvoMaster 三榜交叉验证揭示的"分数通胀与功能脱钩"现象。

一、地基一:METR TH1.1 把"7 个月翻一倍"修正成了"131 天翻一倍"

1.1 原始论文给出的曲线(2025-03)

METR 在 2025 年 3 月发布 arXiv:2503.14499《Measuring AI Ability to Complete Long Software Tasks》,提出 50%-task-completion time horizon——"AI 能以 50% 成功率完成的任务,人类通常需要花多久"。原文摘要写得很克制:

"On these tasks, current frontier AI models such as Claude 3.7 Sonnet have a 50% time horizon of around 50 minutes. Furthermore, frontier AI time horizon has been doubling approximately every seven months since 2019, though the trend may have accelerated in 2024."

这套度量有两个关键优势:它把"AI 能力"投射到"人类时间"这个直观刻度上,避免了"Score = 0.84"这种无锚点数字;并且基于真实软件任务(RE-Bench + HCAST + 66 个新短任务),不是合成题库。论文还做了一个5 年外推:如果趋势延续,AI 将在 5 年内能自动化当前人类一个月的工作量。这是 2025 年上半年被广泛引用的"AI 进展曲线"。

1.2 TH1.1 修正后的曲线(2026-01-29)

但 METR 自己也不打算让这条曲线"一成不变"。2026 年 1 月 29 日发布的 TH1.1 更新《Time Horizon Estimates (TH1.1)》做了三件事:任务库扩展(170 → 228,+34%)、长任务翻倍(14 → 31,+121%)、基础设施迁移(自研 Vivaria → UK AISI 开源 Inspect)。原文措辞给出了修正后的数字:

"This hybrid trend shows exactly the same doubling time as the TH1 trend, of 196 days (7 months)."(混合趋势) "We re-estimated horizons for only 14 of 33 models which had TH1 estimates."

更关键的是 2023 年以后的拟合。原文说:

"我们比较了 TH1 与 TH1.1 自 2023 年以来的趋势,得到 2023 年后翻倍周期从 165 天缩短到 131 天——比 TH1 估计快 20%。"

这意味着"7 个月翻一倍"在 2023 年以前还成立,但 2023 年以后的趋势加速了 20%。如果你只看原始论文不跟进 TH1.1,会低估近两年的进展速度。

1.3 翻倍曲线本身的不确定性

METR 自己也在 TH1.1 原文里坦诚地写出了置信区间:

"e.g. the upper bound on Opus 4.5 was 4.4X larger than the point estimate with TH1, but it is now 2.3X larger with TH1.1. These confidence intervals are still very wide."

也就是说即便是同一个模型,2025-03 报告给出的"Opus 4.5 时间视野上限"是点估计的 4.4 倍。TH1.1 把这个倍数压到了 2.3 倍——区间更窄了——但仍然很宽。另一个限制是"5 of 31 long tasks"的人类基线时间是实测、其余是估算,这等于在曲线尾部画了一个约 16% 的"实测锚点 + 84% 的外推锚点"的混合体。

对工程读者的启示:把"7 个月翻一倍"或"131 天翻一倍"作为 PR 标题是合理的,但作为部署决策依据必须配上置信区间和"任务是否在曲线训练分布内"的限定。写"AI 进展曲线"类叙事时如果不区分"全周期"和"2023 年后周期",会被懂行的读者立刻识别为"没读 TH1.1"。

二、地基二:Anthropic ASL 把"评估"从"得分"变成了"部署前置条件"

2.1 MMLU 的 4 个被点名的脆弱性

Anthropic 2023 年发布的评估挑战原文《Challenges in evaluating AI systems》对 MMLU 提了 4 个"小但重要"的问题:

"Because MMLU is so widely used, models are more likely to encounter MMLU questions during training. This is comparable to students seeing the questions before the test—it's cheating." "Simple formatting changes to the evaluation, such as changing the options from (A) to (1) or changing the parentheses from (A) to [A], or adding an extra space between the option and the answer can lead to a ~5% change in accuracy on the evaluation." "AI developers do not implement MMLU consistently." "MMLU may not have been carefully proofread—we have found examples in MMLU that are mislabeled or unanswerable."

这 4 条加在一起意味着:MMLU 分数的"5% 噪声带宽"是结构性事实,而不是测量误差。任何"模型 A 比模型 B 高 3%"的对比都可能在格式微调后翻转。Anthropic 也在原文里把 BBQ(偏见基准)作为更复杂的案例——光正确实现就花了一个全职工程师一整周。这是任何想要做严肃 AI 评估的组织都该读的入门警示。

2.2 ASL 阈值体系:两个具体的"部署前必须过"的门

如果说 2023 年的评估挑战是"诊断书",那么 2024 年 10 月 Anthropic 更新版 Responsible Scaling Policy 就是"处方"。原文措辞非常直接:

"Our updated policy defines two key Capability Thresholds that would require upgraded safeguards: Autonomous AI Research and Development: If a model can independently conduct complex AI research tasks typically requiring human expertise—potentially significantly accelerating AI development in an unpredictable way—we require elevated security standards (potentially ASL-4 or higher standards)." "Chemical, Biological, Radiological, and Nuclear (CBRN) weapons: If a model can meaningfully assist someone with a basic technical background in creating or deploying CBRN weapons, we require enhanced security and deployment safeguards (ASL-3 standards)."

两个关键阈值——一个是"自主 AI 研发"(触发 ASL-4+),一个是"CBRN 武器辅助"(触发 ASL-3)。当前所有 Anthropic 模型运行在 ASL-2。这两个阈值不是"分数达标",而是**"行为证据达标"**——需要"实时和异步监控 + 部署前红队 + 内部访问控制 + 模型权重保护"等一整套安全措施。

2.3 从"得分"到"部署前置条件"的范式转移

ASL 的设计哲学和 MMLU 是两套不同的世界观:

维度MMLU / 传统基准ASL 阈值
单位精度分(0–100%)能力是否可观察达到阈值
通过标准跨模型相对排名是否触发硬性安全升级
失败后果排名下降禁止训练或部署
时间静态快照持续评估 + 部署后监控
工具单选题 + 自动评分多选题 + 第三方框架 + 众包工人 + 领域专家红队 + 生成式 AI 评估生成式 AI + 第三方审计(原文逐级枚举)

也就是说,传统基准是"诊断工具",ASL 是"部署许可"。这两者的功能不重叠——任何想做"AI 部署"的产品/平台,都不应该只盯着 MMLU 分数,必须把"能力是否触发阈值"这件事纳入上线前的硬性 checklist。

三、地基三:SWE-bench、HLE 与 EvoMaster 的三榜交叉

3.1 SWE-bench Verified:从 13% 到 79.2%,但榜首之间差距 < 5%

SWE-bench Verified 是 500 个 SWE-bench Full 中的人工筛选子集。截至 2026 年 6 月 14 日 curl swebench.com 抓取到的 JSON 数据(349 条 agent 提交记录),前 5 名依次是:

  • 79.2% — OpenAutoCoder/live-swe-agent(UIUC),使用 claude-opus-4-5-20251101
  • 79.2% — Sonar(SonarSource),使用 claude-opus-4-5
  • 77.4% — OpenAutoCoder/live-swe-agent,使用 gemini-3-pro-preview
  • 76.8% — Anthropic(Claude 4.5 Opus)、EPAM(Claude Sonnet 4)、Atlassian Rovo(Claude Sonnet 4 + GPT-5)、mini-SWE-agent 官方(Claude 4.5 Opus)
  • 76.4% — ACoder(多模型集成)

短短 4 个百分点区分了 5 个独立组织的提交,前 10 名差距不到 5 个百分点——这说明榜单已经进入饱和区间。METR 自己的 2025-08-12 算法分 vs. 整体分研究指出:"智能体通过单元测试但功能上无法直接落地——测试覆盖盲区、format/lint 不达标、缺乏文档、错误处理粗糙"。换言之,SWE-bench Verified 的精度分正在接近"格式分 + 单测覆盖分"的混合体,而不是"功能可用性分"。

3.2 HLE:被设计为"短期不可饱和",但 16 个月就被打到 38.3%→41.1%

Humanity's Last Exam(HLE)发布于 2025 年初,由 1000+ 领域专家出题,设计目标明确写为"前沿模型短期难以饱和"。截至 2026 年 6 月 14 日 lastexam.ai 抓取到的官方表格(10 个模型行):

  • Gemini 3 Pro:38.3%(榜首)
  • GPT-5:25.3%
  • Grok 4:24.5%
  • Gemini 2.5 Pro:21.6%
  • GPT-5-mini:19.4%
  • Claude 4.5 Sonnet:13.7%

从 2025-01 到 2026-06 的 16 个月,榜首从不到 10% 涨到 38.3%——这是 4 倍以上的增长。官方页面本身也承认这一点:"recent history shows benchmarks are quickly saturated -- with models dramatically progressing from near-zero to near-perfect performance in a short timeframe." 也就是说,HLE 自己也已经认识到自己"在饱和曲线上"。

更激进的是 2026-04-19 arXiv:2604.17406 上发布的 EvoMaster《A Foundational Evolving Agent Framework for Agentic Science at Scale》——论文摘要原文:"EvoMaster achieves state-of-the-art scores of 41.1%, 75.8%, 73.3%, and 53.3%, respectively"——它在 HLE 上拿到 41.1%,已经超过 Gemini 3 Pro 的 38.3%。HLE 原作者在页面里也说:"it is plausible that models could exceed 50% accuracy on HLE by the end of 2025"——这一预测已经被 EvoMaster 提前一年实现。

3.3 三榜交叉:能力度量的"三角验证"开始成形

把 SWE-bench Verified、HLE、EvoMaster 三块数据放在一起看,能看出几个非显然的结论:

  1. "通用模型 + 工程化 agent 框架"是当前最强组合:mini-SWE-agent(仅 100 行 Python)搭配 Claude 4.5 Opus/Gemini 3 Flash 都能进入 SWE-bench Verified 前 5。这说明真正的能力度量单位已经不只是"模型",而是"模型 + agent harness"。
  2. HLE 上 Claude 反而落后:Claude 4.5 Sonnet 在 HLE 上只有 13.7%,而 Gemini 3 Pro 38.3%、GPT-5 25.3%。这和 SWE-bench Verified 上 Claude 系占主导的现象完全反向——意味着 HLE 测的是"知识广度 + 推理深度",SWE-bench 测的是"工程化代码修复能力",两者正交。
  3. EvoMaster 的 41.1% 提示"agent framework 是新的能力乘数":单个最强模型 HLE 38.3%,但加上"自演化"框架后变成 41.1%。这暗示未来的能力度量应该把"框架"作为一个独立维度,而不是默认"模型 = 能力"。
  4. METR 算法分 vs. 整体分研究:智能体在 stdlib-js(800 万行)和 hypothesis(10 万行)18 个真实 issue 上,通过单测但功能上不可直接落地。这等于在 SWE-bench Verified 79.2% 的数字下面,埋了一个"功能完成度"的暗洞。

四、地基之下的隐忧:分数通胀与"评估-部署"的脱钩

把这三块地基拼在一起,会发现一个共同的结构性问题——分数通胀正在掩盖能力通胀。具体表现为:

  1. 基准寿命缩短:MMLU 从"5 年寿命基准"变成"18 个月饱和",HLE 设计时自称"短期不可饱和"但 16 个月就被打到 41.1%。每一个新基准的"信度寿命"在 2026 年可能不到 2 年。
  2. 分数差距与能力差距脱钩:SWE-bench Verified 前 5 名差距 < 5%,但 METR 的整体分研究表明"算法分通过 ≠ 整体可用"。也就是说"5 个百分点的分数差"可能对应"能力基本相同的工程可用度"。
  3. 能力度量单位正在从"模型"迁移到"模型 + 框架 + 部署上下文":EvoMaster 41.1% > Gemini 3 Pro 38.3% 提示同一个底层模型在不同框架下的表现可能差出几个百分点。这要求评估协议必须显式声明"评估单元是什么"——是模型?模型 + prompt?模型 + agent harness?模型 + 工具链?
  4. 阈值评估与精度评估的分工:MMLU/SWE-bench/HLE 是"精度评估",回答"模型在某项任务上多准"。ASL 阈值是"阈值评估",回答"模型是否触发部署前的安全升级"。这两者不能互相替代。

五、对从业者的三个落地建议

5.1 不要把单一基准分数当作能力结论

任何"模型 X 在 Y 上拿了 Z 分"的对比,至少要配上:

  • 置信区间(METR TH1.1 对 Opus 4.5 的 2.3× 上限就是教科书级别的反面案例)
  • 评估单元的明确说明(模型 / 模型 + prompt / 模型 + agent harness)
  • 算法分 vs. 整体分的拆分(如果可能)
  • "在基准训练分布内还是外"的标注(METR 长任务里只有 5/31 是实测人类基线)

5.2 把"能力阈值"纳入上线 checklist

如果你在做 AI 产品/平台,至少要把两件事变成硬性流程:

  • 部署前评估是否有"自主研究能力"的早期信号(参考 ASL-4 阈值)
  • 部署后监控是否有 CBRN 类辅助能力上升的迹象(参考 ASL-3 阈值)

这两类评估和"MMLU 分数"是完全不同的两件事——前者是行为证据,后者是精度分;前者决定能不能部署,后者决定排名怎么写。

5.3 给基准设计者:把"饱和曲线"作为元数据发布

HLE 官方页面"plausible that models could exceed 50% accuracy on HLE by the end of 2025"这种对饱和曲线的公开预测值得所有新基准学习——把"基准预期寿命"作为元数据发布,能让读者更合理地解释榜单变化,也让"基准饱和"成为可被预测的事件,而不是事后的惊讶。

六、总结与展望

2026 年下半年 AI 能力度量的真实地基,不在任何单一榜单上,而在三块互相正交的数据的交叉验证里:

  • METR TH1.1 把"AI 进展曲线"从"7 个月翻一倍"修正为"2023 年后 131 天翻一倍",并诚实标注了 2.3× 的置信区间上限;
  • Anthropic ASL 把"评估"从"得分排名"转化为"部署前置条件",明确划出"自主 AI 研发"和"CBRN 武器辅助"两个硬性阈值;
  • SWE-bench Verified / HLE / EvoMaster 三榜交叉揭示"模型 + agent harness"才是真正的能力度量单位,HLE 上的 Claude 落后与 SWE-bench 上的 Claude 领先是同一现象的两面。

下一个 12 个月值得关注的三件事:

  1. OpenAI / Anthropic 是否发布"Diffusion 模式"或"自主研究"相关的能力声明——这会直接影响 ASL-3/4 阈值的触发时机;
  2. METR TH2 是否进一步收窄置信区间——能否在 2027 年把 Opus 级模型的 2.3× 上限压到 1.5× 以内,决定了"AI 进展曲线"是否能成为工程决策依据;
  3. SWE-bench Verified 是否引入"功能可用性分"作为补充指标——这是基准设计者承认"算法分 ≠ 整体分"的最直接方式。

可以肯定的是——"基准分数通胀"和"能力通胀"的脱钩,将是 2026 年下半年到 2027 年 AI 评估领域最核心的工程命题。读者下次再看到"模型 X 在 Y 上拿了 Z 分"的标题时,建议先问三个问题:评估单元是什么?置信区间多宽?这是精度评估还是阈值评估?

参考资料

  1. METR (2025). Measuring AI Ability to Complete Long Software Tasks. arXiv:2503.14499. https://arxiv.org/abs/2503.14499
  2. METR (2026). Time Horizon Estimates (TH1.1). https://metr.org/blog/2026-1-29-time-horizon-1-1/
  3. METR (2025). Research Update: Algorithmic vs. Holistic Evaluation. https://metr.org/blog/2025-08-12-research-update-towards-reconciling-slowdown-with-time-horizons/
  4. Anthropic (2023). Challenges in evaluating AI systems. https://www.anthropic.com/news/evaluating-ai-systems
  5. Anthropic (2024). Announcing our updated Responsible Scaling Policy. https://www.anthropic.com/news/announcing-our-updated-responsible-scaling-policy
  6. SWE-bench Leaderboard (2026). https://www.swebench.com/ (截至 2026-06-14 curl 抓取数据,前 5 名 79.2%–76.4%)
  7. Humanity's Last Exam (2026). https://lastexam.ai/ (截至 2026-06-14 curl 抓取数据,Gemini 3 Pro 38.3% 居首)
  8. EvoMaster (2026). A Foundational Evolving Agent Framework for Agentic Science at Scale. arXiv:2604.17406. https://arxiv.org/abs/2604.17406

相关文章

  • MoE 架构 2026:从稀疏门控到 DeepSeek-V3 与 Qwen3 的工程化集大成6月14日
  • Diffusion LLM:当文本生成从打字机变成并行编辑器6月13日
  • LLM 评估的危机与重建:从饱和基准到过程性评估的范式转移6月12日

评论

加载评论中…

发表评论

返回文章列表