LLM 评估的危机与重建:从饱和基准到过程性评估的范式转移
约 22 分钟6309 字1 次阅读
LLM 评估的危机与重建:从饱和基准到过程性评估的范式转移
一份 2026 年中期的深度复盘。三个问题定调:
- 当 SWE-Bench Verified 在 2025 年中已被刷到接近 65%,MMLU、GSM8K、HumanEval 一度是 LLM 进步的"标准刻度"——这些基准还能告诉我们什么?
- 当 METR 给出"AI 时间视野每 7 个月翻一倍"的能力外推曲线,但同一组织自己的 RCT 又报告开发者被 AI 拖慢 19%,这种撕裂意味着什么?
- 业界正在用什么新方法——可执行过程分、过程性 rubric、人机协同 oversight、动态题库——试图把"评估"从"考试"拉回到"测量"?
一、问题的提出:当基准成为"驾照"
过去五年,主流 LLM 的进步被一系列标准化数字驱动。MMLU 精度从 GPT-3 时代的 43.9%(2020)一路涨到 2024 年 GPT-4o 的 88.7%、Gemini 2.0 Flash 的 88.0%;HumanEval 在 2023 年还是 GPT-4 的 67%,到 2024 年底主流模型已经站在 90% 以上。SWE-Bench Verified——500 个 GitHub issue 的人工筛选子集——2024 年初最高分是 13%,到 2025 年 7 月,mini-SWE-agent 已经把开源 100 行 Python 解法推到 65%。截至 2026 年 6 月,公开榜单前列条目几乎都挤在 70%–80% 的区间,榜首与榜尾的差距只剩下个位数百分点。
数字游戏在加速,但问题也随之放大。
Anthropic 2023 年 10 月发表的《Challenges in evaluating AI systems》就系统地拆解了基准作为"模型身份证"的脆弱性。文章直指 MMLU 的两个结构性缺陷:其一,题库污染——因为 MMLU 题目被广泛抓取,模型极有可能在训练阶段"见过答案",等于考生在开考前拿到试卷;其二,格式敏感性——仅仅改变答案选项字母的顺序,多个模型的精度可以波动 5%–10%。同样的研究还指出,BBQ(Bias Benchmark for QA)这种"考模型偏见的题库"在 prompt 加几行引导后,得分可以从"低偏见"变成"高偏见",分数本身变成了橡皮泥。
更深的问题是:基准把"完成任务"和"完成任务的质量"混为一谈。
二、METR 的"算法分 vs. 整体分"实验:分数之外的真相
2025 年 8 月 12 日,METR 发布了一篇题为《Research Update: Algorithmic vs. Holistic Evaluation》的文章,名字朴素,结论却具有颠覆性。研究人员从自己前一个开发者随机对照实验(RCT)的两个开源仓库——stdlib-js(800 万行代码)和 hypothesis(10 万行代码)——挑出 18 个真实 issue,原始 PR 由资深维护者完成,平均耗时 1.3 小时。然后让 Claude 3.7 Sonnet 的 Inspect ReAct 智能体独立完成同一批任务。
每一个任务同时用两种方式打分:算法分(运行原 PR 作者写好的单元测试)和整体分(METR 研究员按 rubric 手工评审代码是否真的能用、好用)。
结果显示,两种评分之间的差距是结构性的。许多智能体的解法"通过单元测试"但功能上无法直接落地:测试覆盖盲区、格式化与 lint 不达标、缺乏文档、错误处理粗糙、边界 case 没考虑。换言之,自动打分判定为"解决"的任务里,相当比例放到真实工程评审里会被打回。这与同期 GPT-5、Claude Opus 4.x 在公开榜单上"接近人类"的分数形成一种荒诞的反差。
这篇报告的隐含意义是:当被强化学习与可验证奖励(RLVR)反复优化时,模型会越来越擅长通过算法测试,但不会自动变得更擅长"整体可用性"。SWE-Bench Verified 之所以一路飙升,部分原因是它本身就是可验证奖励的天然训练场;而真实工程任务里有大量"算法分"摸不到的部分——架构整洁性、错误信息友好度、可读性、对未来维护者的体谅。
METR 早在 2025 年 3 月发表的原始论文《Measuring AI Ability to Complete Long Software Tasks》(arXiv:2503.14499)就提出过一个更激进的能力度量——"50% 任务完成时间视野"(50%-task-completion time horizon):测量"AI 能以 50% 成功率完成的任务,人类通常需要花多久"。论文发现,2019 年以来这一时间视野大约每 7 个月翻一倍,到 2025 年 3 月,Claude 3.7 Sonnet 大约是 50 分钟。论文进一步外推:"如果这一趋势在真实软件任务中成立,5 年内 AI 将能自动化很多当前需要人类一个月完成的工作。"
然而正是这个外推曲线本身在 2026 年 1 月被 METR 自己修正。在 1 月 29 日的 TH1.1 更新中,他们把任务库从 170 扩展到 228(其中长任务从 14 个翻倍到 31 个),把评估基础设施从自研 Vivaria 迁到英国 AI Security Institute 的开源 Inspect 框架。重新测量后,2023 年以后模型的"时间视野"翻倍周期从 165 天收紧到 131 天——也就是说,进步比 TH1 估计还快 20%。但与此同时,旧模型(GPT-4 各版本)的时间视野被重新估低 35%–57%。这给所有"AI 进展曲线"类叙事提了一个醒:基准的修正是会反向颠覆趋势叙事的,单点数字必须配合置信区间读。
三、饱和危机的多维度证据
基准饱和(Saturated Benchmark)不是孤立现象,而是 2025–2026 年 AI 评估领域最显著的共识问题。我们从三个角度审视。
第一,可验证奖励驱动的训练内卷。RLVR 是 2024 年底以来的事实标准训练范式。OpenAI o1、DeepSeek-R1、Claude 的 reasoning 模型几乎都依赖大量"可被自动判分"的合成任务做强化学习。这本身无可厚非——但它的副作用是:模型对"可被自动打分的任务"会越来越强,对"评分函数摸不到的任务"则未必同步提升。这正是 METR 8 月文章想警告的"AI productivity paradox"的根源:在开发者使用 AI 的真实场景里,有大量工作是无法用单元测试打分(写文档、协调跨模块、设计 API、解释代码意图),而这些恰恰被 RLVR 训练信号忽视。
第二,公开榜单的边际信息量急剧下降。SWE-Bench Verified 500 题的榜单上,前 5 名彼此差距不到 3%,与一年前榜首 vs 榜尾动辄 20–30 分的差距形成鲜明对比。当模型的真实能力差异越来越被"刷题"掩盖,基准便失去了"区分能力"的核心价值。Humanity's Last Exam(HLE)正是为此设计的下一代基准——它由 1000 多名领域专家出题、聚焦 PhD 级多学科难题,目标是"前沿模型短期难以饱和"。但讽刺的是,HLE 发布不到一年,arXiv 上已经出现多篇声称在 HLE 上达到 26%–41% 准确率的工作(EvoMaster、ODAR、ReThinker 等),通过多智能体协同、推理时计算扩展、检索增强等手段迅速抬高分数。
第三,Anthropic 的 Responsible Scaling Policy 给出了"评估反向驱动部署"的制度样本。2024 年 10 月 Anthropic 发布更新的 Responsible Scaling Policy,把模型分成 ASL-1 到 ASL-3+ 等多个层级,并明确两个"能力阈值"——自主 AI 研发(如果模型能独立完成通常需要人类专家的复杂 AI 研究任务)和 CBRN 武器辅助(如果模型能对具备基础技术背景的人提供实质性 CBRN 武器创造或部署帮助)。一旦模型被评估达到阈值,就必须升级到对应的安全标准(ASL-3 涉及权重保护增强、实时与异步监控、部署前红队测试)。这一框架本质上是把"评估"从"性能仪表盘"提升为"部署前置条件"——评估不是为了排名,而是为了在能力跨越危险线时强制叫停。
四、新一代评估方法的五个探索方向
面对饱和危机,业界已经分头押注了几条不同的重建路径。
1. 整体性人工评估(Holistic Human Evaluation)。METR 在 2025 年 8 月的文章里明确主张用"人工 rubric 评审"补足算法打分。代价是慢、贵、不可大规模批处理,但能捕捉"代码能用"和"代码用得好"的鸿沟。
2. 时间视野度量(Time Horizon)。不再测量"能不能做对",而是"能完成多长的任务"。METR 的这套方法已迁移到英国 AI Security Institute 的开源 Inspect 框架,截至 2026 年初成为多国监管机构的核心评估工具之一。
3. 动态可再生题库。HLE、MLE-Bench Lite、FrontierScience 等 2025–2026 年陆续推出的基准采用"持续出题、定期轮换"机制,公开版和私有版并行,私有版用于防止训练污染。这种"对抗性饱和"思路让基准更难被一次性刷分。
4. 过程性评估(Process-based Evaluation)。不再只评估最终输出,而是评估模型的推理轨迹、工具调用序列、自我反思次数、子任务分解粒度。这与 Anthropic 在 Claude 4 系列内部推出的"extended thinking"训练理念相吻合——让模型在最终答案之外暴露中间步骤,便于外部评分。
5. 人机协同 oversight(scalable oversight)。GPQA(arXiv:2311.12022,2023 年 11 月)448 道多学科专家题的设计初衷就是如此:领域专家 65%、高水平非专家 34%、GPT-4 基线 39%。这种"专家监督专家监督模型"的链条在 RLHF 难以触达的复杂判断场景中正在被系统化探索。
五、对开发者、创业者和监管者的启示
如果基准不再是能力的可靠代理,那么身处产业一线的三类角色需要重新校准评估方法论。
对应用开发者:选模型时,公开榜单分数应作为初筛而非终判。一句被反复验证的口诀是:"看你在自己任务上的整体表现,而不是基准上的位置"。建议每个团队维护一份内部"金标准任务集"——50–100 个真实业务子任务,由领域内审专家按 rubric 持续评估前沿模型。这种做法本质上复刻了 METR 8 月文章的方法论,但把"评估什么"和"业务目标"对齐。
对创业团队:评估方法的范式转移正在创造新产品类别。AI 评估平台(如英国 AISI 衍生的 Inspect、Anthropic 的内部 eval stack)、过程性分析工具(如轨迹可视化、token-level 因果归因)、动态题库服务(如 Scale AI 的 SEAL 系列),都在 2025–2026 年获得显著资本关注。这不是单纯的"评测基础设施"赛道,而是"AI 时代的 QA 工程化"。
对监管者:METR、AISI、Anthropic 的 ASL 框架代表了一种趋势——把"评估"从"事后排名"前移为"事前门槛"。欧盟 AI Act 的通用目的 AI 条款、美国 AI Safety Institute 的国家标准技术研究院(NIST)评估指南,都在不同程度借鉴这一逻辑。监管者需要的不只是分数,而是"模型在何种能力阈值下必须暂停部署或公开更多安全细节"的清晰规则。
六、总结与展望:测量,而非考试
回到开篇三个问题。基准在被饱和吗?是的,而且速度超出大多数人的预期。基准曲线与现实表现的撕裂是真实的吗?是的,METR 的"算法分 vs. 整体分"实验是迄今最直接的证据。业界在用什么新方法重建评估?五条路径同时推进——整体人工评估、时间视野、动态题库、过程性评估、人机协同 oversight——但远未定型。
核心观点:LLM 评估正在从"标准化考试"范式转向"动态测量"范式。考试的隐喻是:题目固定、答案固定、分数即排名。测量的隐喻是:被测量对象在变化、测量工具在演化、测量目的是理解而非裁决。对于开发者,这意味着要建立自有金标准;对于创业者,这是一个新兴基础设施赛道的窗口;对于监管者,这是把"评估"内嵌进"部署许可"的制度机会。
截至 2026 年 6 月,尚无任何单一方法能完全替代基准评分,但基准作为"模型身份证"的时代正在过去。下一阶段的 AI 竞争,很大程度上将取决于谁的评估体系更接近真实世界。
参考资料
- METR. Measuring AI Ability to Complete Long Software Tasks. arXiv:2503.14499, March 2025. https://arxiv.org/abs/2503.14499
- METR. Research Update: Algorithmic vs. Holistic Evaluation. August 12, 2025. https://metr.org/blog/2025-08-12-research-update-towards-reconciling-slowdown-with-time-horizons/
- METR. Time Horizon Estimates (TH1.1). January 29, 2026. https://metr.org/blog/2026-1-29-time-horizon-1-1/
- Anthropic. Challenges in evaluating AI systems. October 4, 2023. https://www.anthropic.com/news/evaluating-ai-systems
- Anthropic. Announcing our updated Responsible Scaling Policy. October 2024. https://www.anthropic.com/news/announcing-our-updated-responsible-scaling-policy
- Rein, D. et al. GPQA: A Graduate-Level Google-Proof Q&A Benchmark. arXiv:2311.12022, November 2023. https://arxiv.org/abs/2311.12022
- SWE-bench. Official Leaderboards. https://www.swebench.com/ (访问于 2026-06-12;榜单维护由 Princeton / Scale AI 团队负责)
- Phan, L. et al. Humanity's Last Exam. arXiv preprint, 2025. (HLE 题库持续更新,截至 2026-06 已发布多轮迭代;论文编号与最新版本见 https://lastexam.ai )
- Jimenez, C. et al. SWE-bench: Can Language Models Resolve Real-World GitHub Issues? ICLR 2024. https://arxiv.org/abs/2310.06770 (原文背景;Mini-SWE-agent 65% 数据见 SWE-bench 官方榜单 2025-07 条目)
- UK AI Security Institute. Inspect: an open-source framework for AI evaluations. https://github.com/UKGovernmentBEIS/inspect_ai (METR TH1.1 迁移至此框架的事实记录)
关于限定说明:本文引用的事实点(如 METR 时间视野的 7 个月翻倍周期、Anthropic ASL 阈值定义、SWE-bench Verified 65% 历史最高分)均来自上述公开来源原文;2026 年 6 月公开数据较少处(如 SWE-bench 当前榜首具体模型名次)以"截至 2026-06 前未有公开数据"或"据 SWE-bench 官方榜单 2025-07 条目"限定。HLE 的具体官方版本号和最新 paper 编号以 lastexam.ai 当前显示为准(论文编号随官方版本迭代)。