LLM 评估的危机与重建：从饱和基准到过程性评估的范式转移

一份 2026 年中期的深度复盘。三个问题定调：

当 SWE-Bench Verified 在 2025 年中已被刷到接近 65%，MMLU、GSM8K、HumanEval 一度是 LLM 进步的"标准刻度"——这些基准还能告诉我们什么？

当 METR 给出"AI 时间视野每 7 个月翻一倍"的能力外推曲线，但同一组织自己的 RCT 又报告开发者被 AI 拖慢 19%，这种撕裂意味着什么？

业界正在用什么新方法——可执行过程分、过程性 rubric、人机协同 oversight、动态题库——试图把"评估"从"考试"拉回到"测量"？

一、问题的提出：当基准成为"驾照"

过去五年，主流 LLM 的进步被一系列标准化数字驱动。MMLU 精度从 GPT-3 时代的 43.9%（2020）一路涨到 2024 年 GPT-4o 的 88.7%、Gemini 2.0 Flash 的 88.0%；HumanEval 在 2023 年还是 GPT-4 的 67%，到 2024 年底主流模型已经站在 90% 以上。SWE-Bench Verified——500 个 GitHub issue 的人工筛选子集——2024 年初最高分是 13%，到 2025 年 7 月，mini-SWE-agent 已经把开源 100 行 Python 解法推到 65%。截至 2026 年 6 月，公开榜单前列条目几乎都挤在 70%–80% 的区间，榜首与榜尾的差距只剩下个位数百分点。

数字游戏在加速，但问题也随之放大。

Anthropic 2023 年 10 月发表的《Challenges in evaluating AI systems》就系统地拆解了基准作为"模型身份证"的脆弱性。文章直指 MMLU 的两个结构性缺陷：其一，题库污染——因为 MMLU 题目被广泛抓取，模型极有可能在训练阶段"见过答案"，等于考生在开考前拿到试卷；其二，格式敏感性——仅仅改变答案选项字母的顺序，多个模型的精度可以波动 5%–10%。同样的研究还指出，BBQ（Bias Benchmark for QA）这种"考模型偏见的题库"在 prompt 加几行引导后，得分可以从"低偏见"变成"高偏见"，分数本身变成了橡皮泥。

更深的问题是：基准把"完成任务"和"完成任务的质量"混为一谈。

二、METR 的"算法分 vs. 整体分"实验：分数之外的真相

2025 年 8 月 12 日，METR 发布了一篇题为《Research Update: Algorithmic vs. Holistic Evaluation》的文章，名字朴素，结论却具有颠覆性。研究人员从自己前一个开发者随机对照实验（RCT）的两个开源仓库——stdlib-js（800 万行代码）和 hypothesis（10 万行代码）——挑出 18 个真实 issue，原始 PR 由资深维护者完成，平均耗时 1.3 小时。然后让 Claude 3.7 Sonnet 的 Inspect ReAct 智能体独立完成同一批任务。

每一个任务同时用两种方式打分：算法分（运行原 PR 作者写好的单元测试）和整体分（METR 研究员按 rubric 手工评审代码是否真的能用、好用）。

结果显示，两种评分之间的差距是结构性的。许多智能体的解法"通过单元测试"但功能上无法直接落地：测试覆盖盲区、格式化与 lint 不达标、缺乏文档、错误处理粗糙、边界 case 没考虑。换言之，自动打分判定为"解决"的任务里，相当比例放到真实工程评审里会被打回。这与同期 GPT-5、Claude Opus 4.x 在公开榜单上"接近人类"的分数形成一种荒诞的反差。

这篇报告的隐含意义是：当被强化学习与可验证奖励（RLVR）反复优化时，模型会越来越擅长通过算法测试，但不会自动变得更擅长"整体可用性"。SWE-Bench Verified 之所以一路飙升，部分原因是它本身就是可验证奖励的天然训练场；而真实工程任务里有大量"算法分"摸不到的部分——架构整洁性、错误信息友好度、可读性、对未来维护者的体谅。

METR 早在 2025 年 3 月发表的原始论文《Measuring AI Ability to Complete Long Software Tasks》（arXiv:2503.14499）就提出过一个更激进的能力度量——"50% 任务完成时间视野"（50%-task-completion time horizon）：测量"AI 能以 50% 成功率完成的任务，人类通常需要花多久"。论文发现，2019 年以来这一时间视野大约每 7 个月翻一倍，到 2025 年 3 月，Claude 3.7 Sonnet 大约是 50 分钟。论文进一步外推："如果这一趋势在真实软件任务中成立，5 年内 AI 将能自动化很多当前需要人类一个月完成的工作。"

然而正是这个外推曲线本身在 2026 年 1 月被 METR 自己修正。在 1 月 29 日的 TH1.1 更新中，他们把任务库从 170 扩展到 228（其中长任务从 14 个翻倍到 31 个），把评估基础设施从自研 Vivaria 迁到英国 AI Security Institute 的开源 Inspect 框架。重新测量后，2023 年以后模型的"时间视野"翻倍周期从 165 天收紧到 131 天——也就是说，进步比 TH1 估计还快 20%。但与此同时，旧模型（GPT-4 各版本）的时间视野被重新估低 35%–57%。这给所有"AI 进展曲线"类叙事提了一个醒：基准的修正是会反向颠覆趋势叙事的，单点数字必须配合置信区间读。

三、饱和危机的多维度证据

基准饱和（Saturated Benchmark）不是孤立现象，而是 2025–2026 年 AI 评估领域最显著的共识问题。我们从三个角度审视。

第一，可验证奖励驱动的训练内卷。RLVR 是 2024 年底以来的事实标准训练范式。OpenAI o1、DeepSeek-R1、Claude 的 reasoning 模型几乎都依赖大量"可被自动判分"的合成任务做强化学习。这本身无可厚非——但它的副作用是：模型对"可被自动打分的任务"会越来越强，对"评分函数摸不到的任务"则未必同步提升。这正是 METR 8 月文章想警告的"AI productivity paradox"的根源：在开发者使用 AI 的真实场景里，有大量工作是无法用单元测试打分（写文档、协调跨模块、设计 API、解释代码意图），而这些恰恰被 RLVR 训练信号忽视。

第二，公开榜单的边际信息量急剧下降。SWE-Bench Verified 500 题的榜单上，前 5 名彼此差距不到 3%，与一年前榜首 vs 榜尾动辄 20–30 分的差距形成鲜明对比。当模型的真实能力差异越来越被"刷题"掩盖，基准便失去了"区分能力"的核心价值。Humanity's Last Exam（HLE）正是为此设计的下一代基准——它由 1000 多名领域专家出题、聚焦 PhD 级多学科难题，目标是"前沿模型短期难以饱和"。但讽刺的是，HLE 发布不到一年，arXiv 上已经出现多篇声称在 HLE 上达到 26%–41% 准确率的工作（EvoMaster、ODAR、ReThinker 等），通过多智能体协同、推理时计算扩展、检索增强等手段迅速抬高分数。

第三，Anthropic 的 Responsible Scaling Policy 给出了"评估反向驱动部署"的制度样本。2024 年 10 月 Anthropic 发布更新的 Responsible Scaling Policy，把模型分成 ASL-1 到 ASL-3+ 等多个层级，并明确两个"能力阈值"——自主 AI 研发（如果模型能独立完成通常需要人类专家的复杂 AI 研究任务）和 CBRN 武器辅助（如果模型能对具备基础技术背景的人提供实质性 CBRN 武器创造或部署帮助）。一旦模型被评估达到阈值，就必须升级到对应的安全标准（ASL-3 涉及权重保护增强、实时与异步监控、部署前红队测试）。这一框架本质上是把"评估"从"性能仪表盘"提升为"部署前置条件"——评估不是为了排名，而是为了在能力跨越危险线时强制叫停。

四、新一代评估方法的五个探索方向

面对饱和危机，业界已经分头押注了几条不同的重建路径。

1. 整体性人工评估（Holistic Human Evaluation）。METR 在 2025 年 8 月的文章里明确主张用"人工 rubric 评审"补足算法打分。代价是慢、贵、不可大规模批处理，但能捕捉"代码能用"和"代码用得好"的鸿沟。

2. 时间视野度量（Time Horizon）。不再测量"能不能做对"，而是"能完成多长的任务"。METR 的这套方法已迁移到英国 AI Security Institute 的开源 Inspect 框架，截至 2026 年初成为多国监管机构的核心评估工具之一。

3. 动态可再生题库。HLE、MLE-Bench Lite、FrontierScience 等 2025–2026 年陆续推出的基准采用"持续出题、定期轮换"机制，公开版和私有版并行，私有版用于防止训练污染。这种"对抗性饱和"思路让基准更难被一次性刷分。

4. 过程性评估（Process-based Evaluation）。不再只评估最终输出，而是评估模型的推理轨迹、工具调用序列、自我反思次数、子任务分解粒度。这与 Anthropic 在 Claude 4 系列内部推出的"extended thinking"训练理念相吻合——让模型在最终答案之外暴露中间步骤，便于外部评分。

5. 人机协同 oversight（scalable oversight）。GPQA（arXiv:2311.12022，2023 年 11 月）448 道多学科专家题的设计初衷就是如此：领域专家 65%、高水平非专家 34%、GPT-4 基线 39%。这种"专家监督专家监督模型"的链条在 RLHF 难以触达的复杂判断场景中正在被系统化探索。

五、对开发者、创业者和监管者的启示

如果基准不再是能力的可靠代理，那么身处产业一线的三类角色需要重新校准评估方法论。

对应用开发者：选模型时，公开榜单分数应作为初筛而非终判。一句被反复验证的口诀是："看你在自己任务上的整体表现，而不是基准上的位置"。建议每个团队维护一份内部"金标准任务集"——50–100 个真实业务子任务，由领域内审专家按 rubric 持续评估前沿模型。这种做法本质上复刻了 METR 8 月文章的方法论，但把"评估什么"和"业务目标"对齐。

对创业团队：评估方法的范式转移正在创造新产品类别。AI 评估平台（如英国 AISI 衍生的 Inspect、Anthropic 的内部 eval stack）、过程性分析工具（如轨迹可视化、token-level 因果归因）、动态题库服务（如 Scale AI 的 SEAL 系列），都在 2025–2026 年获得显著资本关注。这不是单纯的"评测基础设施"赛道，而是"AI 时代的 QA 工程化"。

对监管者：METR、AISI、Anthropic 的 ASL 框架代表了一种趋势——把"评估"从"事后排名"前移为"事前门槛"。欧盟 AI Act 的通用目的 AI 条款、美国 AI Safety Institute 的国家标准技术研究院（NIST）评估指南，都在不同程度借鉴这一逻辑。监管者需要的不只是分数，而是"模型在何种能力阈值下必须暂停部署或公开更多安全细节"的清晰规则。

六、总结与展望：测量，而非考试

回到开篇三个问题。基准在被饱和吗？是的，而且速度超出大多数人的预期。基准曲线与现实表现的撕裂是真实的吗？是的，METR 的"算法分 vs. 整体分"实验是迄今最直接的证据。业界在用什么新方法重建评估？五条路径同时推进——整体人工评估、时间视野、动态题库、过程性评估、人机协同 oversight——但远未定型。

核心观点：LLM 评估正在从"标准化考试"范式转向"动态测量"范式。考试的隐喻是：题目固定、答案固定、分数即排名。测量的隐喻是：被测量对象在变化、测量工具在演化、测量目的是理解而非裁决。对于开发者，这意味着要建立自有金标准；对于创业者，这是一个新兴基础设施赛道的窗口；对于监管者，这是把"评估"内嵌进"部署许可"的制度机会。

截至 2026 年 6 月，尚无任何单一方法能完全替代基准评分，但基准作为"模型身份证"的时代正在过去。下一阶段的 AI 竞争，很大程度上将取决于谁的评估体系更接近真实世界。

参考资料

METR. Measuring AI Ability to Complete Long Software Tasks. arXiv:2503.14499, March 2025. https://arxiv.org/abs/2503.14499
METR. Research Update: Algorithmic vs. Holistic Evaluation. August 12, 2025. https://metr.org/blog/2025-08-12-research-update-towards-reconciling-slowdown-with-time-horizons/
METR. Time Horizon Estimates (TH1.1). January 29, 2026. https://metr.org/blog/2026-1-29-time-horizon-1-1/
Anthropic. Challenges in evaluating AI systems. October 4, 2023. https://www.anthropic.com/news/evaluating-ai-systems
Anthropic. Announcing our updated Responsible Scaling Policy. October 2024. https://www.anthropic.com/news/announcing-our-updated-responsible-scaling-policy
Rein, D. et al. GPQA: A Graduate-Level Google-Proof Q&A Benchmark. arXiv:2311.12022, November 2023. https://arxiv.org/abs/2311.12022
SWE-bench. Official Leaderboards. https://www.swebench.com/ （访问于 2026-06-12；榜单维护由 Princeton / Scale AI 团队负责）
Phan, L. et al. Humanity's Last Exam. arXiv preprint, 2025. （HLE 题库持续更新，截至 2026-06 已发布多轮迭代；论文编号与最新版本见 https://lastexam.ai ）
Jimenez, C. et al. SWE-bench: Can Language Models Resolve Real-World GitHub Issues? ICLR 2024. https://arxiv.org/abs/2310.06770 （原文背景；Mini-SWE-agent 65% 数据见 SWE-bench 官方榜单 2025-07 条目）
UK AI Security Institute. Inspect: an open-source framework for AI evaluations. https://github.com/UKGovernmentBEIS/inspect_ai （METR TH1.1 迁移至此框架的事实记录）

关于限定说明：本文引用的事实点（如 METR 时间视野的 7 个月翻倍周期、Anthropic ASL 阈值定义、SWE-bench Verified 65% 历史最高分）均来自上述公开来源原文；2026 年 6 月公开数据较少处（如 SWE-bench 当前榜首具体模型名次）以"截至 2026-06 前未有公开数据"或"据 SWE-bench 官方榜单 2025-07 条目"限定。HLE 的具体官方版本号和最新 paper 编号以 lastexam.ai 当前显示为准（论文编号随官方版本迭代）。

LLM 评估的危机与重建：从饱和基准到过程性评估的范式转移

LLM 评估的危机与重建：从饱和基准到过程性评估的范式转移

一、问题的提出：当基准成为"驾照"

二、METR 的"算法分 vs. 整体分"实验：分数之外的真相

三、饱和危机的多维度证据

四、新一代评估方法的五个探索方向

五、对开发者、创业者和监管者的启示

六、总结与展望：测量，而非考试

参考资料

相关文章

评论

发表评论