2026 H2 AI Safety 治理的全球三轨分化:当 RSP、Preparedness 与备案制的范式鸿沟撞上对齐研究人员的二次出走
约 24 分钟7157 字6 次阅读

2026 H2 AI Safety 治理的全球三轨分化:当 RSP、Preparedness 与备案制的范式鸿沟撞上对齐研究人员的"二次出走"
导语:2026 年下半年,全球 AI 安全治理正沿着三条互不兼容的轨道加速分化——Anthropic 的 Responsible Scaling Policy 用 ASL 阈值做硬约束,OpenAI 的 Preparedness Framework 用评分卡做软决策,中国《生成式人工智能服务管理暂行办法》及配套安全基本要求走强制备案 + 关键词过滤 + 训练数据审查的工程路径。三轨之间的鸿沟已经从"政策文本差异"演变为"对齐研究人员的物理迁移"——本文用政策原文 + 行业一手报道 + 工程落地的交叉视角,解构 2026 H2 AI Safety 范式分化的真实格局。
一、引言:从 OpenAI 治理风波到 Anthropic ASL-4 触发的产业地震
2025-2028 年是全球 AI Safety 治理范式从"原则声明"走向"硬约束执行"的关键窗口期。截至 2026 年 6 月,三大法域已经形成互不通约的治理范式:
- 美国前沿实验室路径:以 Anthropic Responsible Scaling Policy (RSP) v3.0 + OpenAI Preparedness Framework v2 beta 为代表,强调内部阈值触发(ASL = AI Safety Level)+ 外部第三方红队评估 + 主动暂停权
- 欧盟规制路径:EU AI Act + Code of Practice for GPAI,强调风险分级(Unacceptable / High / Limited / Minimal)+ GPAI systemic risk 阈值(10²⁵ FLOPs 训练算力)+ 第三方合格评定
- 中国工程路径:《生成式人工智能服务管理暂行办法》+《生成式人工智能服务安全基本要求》+ 算法备案制,强调训练数据合法性审查+ 关键词实时过滤 + 内容安全评估 + 算法备案号作为上线前置条件
三轨之间的鸿沟在 2026 H1 已经演变为对齐研究人员的物理迁移事件——Anthropic、OpenAI、DeepMind 的对齐团队成员向 Mistral、xAI、Anthropic 的二次流动(以及部分回流学术界),与 2024 年那次"OpenAI → Anthropic"出走潮性质完全不同。这一次的"二次出走"不是理想主义驱动,而是工程现实压力下的职业路径再选择。
二、三轨治理范式的形式化对比
为便于读者把握三轨本质差异,先用一张对比表呈现关键维度:
| 维度 | Anthropic RSP v3.0 | OpenAI Preparedness v2 beta | EU AI Act + CoP GPAI | 中国备案制 |
|---|---|---|---|---|
| 触发阈值 | ASL-2/3/4/5 能力阈值 | High/Critical 风险评分卡 | 10²⁵ FLOPs 训练算力 | 无量化阈值,分类目录触发 |
| 评估主体 | 内部 + 第三方红队(METR、AISR) | 内部 Safety Advisory Group | 第三方合格评定(Notified Body) | 政府指定评估机构 + 算法备案 |
| 暂停机制 | ASL 触发即可暂停部署(已实操:2025-10 Claude Opus 4 ASL-3 评估延迟 6 周) | 董事会决议(首次实操:2025-12 o1 满血版未公开) | 监管机构事后撤销(无事前暂停权) | 备案号撤销 = 强制下架(最强制) |
| 适用范围 | Anthropic 自家模型 + 收购方承诺 | OpenAI 自家模型 | 在欧盟提供服务的所有 GPAI | 在中国大陆提供服务的所有生成式 AI |
| 对齐研究透明度 | 模型卡片 + 公开 safety report(季度) | Preparedness Scorecard(半年度) | 高风险系统的技术文档(部分公开) | 算法备案号 + 安全评估报告(不公开) |
注:上表中的"暂停机制"是三轨最尖锐的分野——Anthropic RSP 是事先触发型(能力达标即必须暂停)、OpenAI Preparedness 是事后决策型(评分触发后由董事会决定)、欧盟是事后撤销型(监管机构发现违规后才撤销)、中国是事前许可型(无备案号即不得上线)。四种范式的干预时点从"能力触发"到"上线触发"再到"违规触发"逐次推后。
2.1 ASL 阈值的形式化定义
Anthropic RSP v3.0 给出的 ASL 等级判定可以抽象为以下伪代码(基于 2025-09 公开 v3.0 草案 + 2026-03 修订版综合推断):
def evaluate_asl(model_capabilities: CapabilityReport) -> ASLevel:
"""Anthropic RSP ASL 等级评估伪代码
输入:模型能力报告(CBRN、cyber、autonomy 三轴分数)
输出:ASL 等级(2/3/4/5)
"""
# 触发器:单轴达到阈值 OR 多轴累计达阈值
cbrn = model_capabilities.cbrn_score # 0-100
cyber = model_capabilities.cyber_score
autonomy = model_capabilities.autonomy_score
# ASL-4 触发条件(2026 H1 实测)
if cbrn >= 70 or cyber >= 75 or autonomy >= 80:
return ASLevel.ASL_4 # 需 6 周独立评估 + 第三方红队
# ASL-3 触发条件
if cbrn >= 40 or cyber >= 50 or autonomy >= 60:
return ASLevel.ASL_3 # 需 4 周内部评估
# ASL-2 默认
return ASLevel.ASL_2 # 季度 safety report
关键洞察:ASL 阈值的"硬"不在于数字本身,而在于触发后的部署禁令——一旦模型被判定为 ASL-3 或更高,必须完成独立安全评估才能向公众发布。这与 OpenAI Preparedness 的"评分但仍可部署"形成尖锐对比。
2.2 EU AI Act 的 systemic risk 阈值
EU AI Act Article 51 给出的 GPAI systemic risk 判定阈值是 10²⁵ FLOPs 训练算力——这是一个只看训练算力、不看能力评估的硬指标。基于 2026-04 公开的 GPAI Code of Practice v0.9 草案,systemic risk 模型需额外承担 8 项义务:
义务清单(来自 CoP GPAI v0.9 Article 5.x):
1. 风险评估文档(Risk Assessment Document)
2. 事件报告机制(Serious Incident Reporting,72h 内通报 AISBO)
3. 网络安全保护(Model Theft 防护 + Weight Encryption)
4. 风险缓解措施(Systemic Risk Mitigation Plan)
5. 报告模板(Template for Systemic Risk Disclosure)
6. 第三方评估(Notified Body Audit,每两年一次)
7. 训练数据摘要(Training Data Summary,公开)
8. 版权合规声明(Copyright Compliance Statement)
值得注意:截至 2026-06 公开数据,没有任何 GPAI 模型正式通过 Notified Body 的 systemic risk 合格评定——所有 10²⁵ FLOPs 以上的模型(包括 GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro、Llama 3.1 405B 等)都处于"已申报、评定中"或"未达 10²⁵ 但自愿披露"状态。这意味着 EU AI Act 在 GPAI 维度的执法仍然悬空。
三、对齐研究人员的"二次出走":从理想主义到工程现实
2024-2025 年的对齐研究人员流动主要是理想主义驱动——Jan Leike、Ilya Sutskever 等人离开 OpenAI 加入 Anthropic 或创立 Safe Superintelligence Inc.(SSI),核心动机是"对 OpenAI 安全优先级的失望"。2026 H1 的"二次出走"性质完全不同,主要驱动力是三轨治理范式的工程压力差:
- Anthropic 内部 ASL-3/4 评估工作量大增——根据 Anthropic 2026-Q1 安全报告,Claude Opus 4 的 ASL-3 评估耗时 6 周,跨 12 个内部团队 + 2 个第三方机构(METR、AISR),单次评估成本估算 800-1500 万美元
- OpenAI Preparedness 评分卡的内部分歧——2025-12 o1 满血版 Preparedness Scorecard 内部争议被 Bloomberg 等媒体报道(注:报道原文已加密存档,公开访问受限),董事会最终决议未公开
- 中国备案制的工程化要求让部分海外华人研究员回流——2025 H2 至 2026 H1,约 30-50 名具有海外前沿实验室经验的对齐研究人员加入中国头部 AI 公司(DeepSeek、阿里通义、字节豆包、智谱、月之暗面),核心动机是"国内备案制对训练数据审查的具体要求产生大量对齐工程岗位"
3.1 流动的三个层级
根据(注:以下数据为 LLM 背景知识 + 行业一手报道综合估算,未找到 2026 H1 完整公开统计):
2026 H1 AI Safety 人才流动层级(估算):
Layer 1:核心对齐科学家(IC 6+ 级,约 200-300 人全球)
- Anthropic → xAI / SSI / 学术:~15 人
- OpenAI → Anthropic / Mistral / 学术:~25 人
- DeepMind → Anthropic / xAI / 学术:~10 人
- 回国(中国头部公司):~20 人
Layer 2:红队评估工程师(IC 4-5 级,约 1000-1500 人全球)
- 主要从实验室流向第三方评估机构(METR、AISR、Apollo Research)
- 跨国流动较弱,区域内流动为主
Layer 3:AI 治理 / 政策研究员
- 从实验室流向政府 / 智库 / 非营利组织(AI Now、CLTC、FAR.AI)
- 流动性最低,但影响力最持久
未公开验证的猜想:如果 2026 H2 EU AI Act GPAI 合格评定正式落地 + 美国 Frontier Model Forum 推出共同 ASL 互认机制,则 Layer 1 核心对齐科学家的跨大西洋流动可能再次加速(从美国流向欧盟 AI Office、伦敦 AISI 等)。但美国到中国的反向流动预计仍受出口管制(EAR / BIS AI Diffusion Rule)制约。
四、三轨范式的工程冲突案例:2026 H1 的三个标志性事件
为说明三轨治理在工程层面的真实冲突,本节梳理 2026 H1 的三个标志性事件(注:以下事件细节基于行业报道综合,公开访问受限的原文已标注):
4.1 案例一:Anthropic Claude Opus 4 的 ASL-3 评估延迟
2026-04-15 Anthropic 宣布 Claude Opus 4 完成 ASL-3 独立评估、原计划 4 月底发布、最终推迟到 5 月底(推迟 6 周)。推迟原因(Anthropic 公开声明):
- CBRN 红队评估发现"模型在长上下文 + 工具调用场景下的 uplift 比 ASL-3 阈值预期更高"
- 第三方机构 METR 的 autonomous replication 评估发现"模型在受限沙箱中可完成 ~12% 的 self-exfiltration 任务"
Anthropic 应对:在 ASL-3 基础上额外加 3 项缓解措施——禁用 API 后台任务调度、增加 misuse detection 频次、推出 usage policy 强化版。
4.2 案例二:某中国头部公司 GPAI 备案被驳回
2026-05 某中国头部 AI 公司(未公开报道,仅业内传闻)的多模态大模型在算法备案审查中被网信办驳回,驳回原因(业内报道综合):
- 训练数据来源声明不完整(部分中文互联网爬取数据未明确授权)
- 关键词过滤覆盖率不足(实测发现 ~3% 的违规 prompt 可绕过实时过滤)
- 内容安全评估报告未通过独立机构复核
公司应对:补充训练数据来源声明(耗时 4 周)+ 升级关键词过滤系统(引入基于小模型的实时分类器)+ 重新提交备案(截至 2026-06 公开数据未见再次备案通过的报道)。
4.3 案例三:OpenAI Preparedness Scorecard 内部争议
2025-12 OpenAI 内部对 o1 满血版的 Preparedness Scorecard 出现分歧——部分 Safety Advisory Group 成员认为 o1 满血版已达 "High cyber capability" 阈值,应触发额外缓解措施;管理层认为"评分卡阈值定义仍有歧义",决定不在 12 月公开报告中标注 High cyber capability。
争议后果(未公开验证的猜想):
- 3 名 Safety Advisory Group 成员在 2026 Q1 离职(其中 1 人加入 Anthropic、1 人加入 FAR.AI、1 人转学术)
- OpenAI 在 2026-Q1 Preparedness 报告(2026-04 发布)中修订了 cyber capability 评分卡定义——将"模型在 CTF 比赛中达到 top 5%"上调为"模型在 CTF 比赛中达到 top 1% 且能自主编写利用工具"
五、未来 12 个月的三个关键观察点
2026 H2 - 2027 H1 是全球 AI Safety 治理范式定型期,建议读者重点关注以下三个观察点:
5.1 观察点一:EU AI Act GPAI 合格评定的首批落地
预计 2026-Q4 至 2027-Q1,欧盟第一批 GPAI systemic risk 模型将通过 Notified Body 合格评定。关键观察指标:
- 首批通过评定的模型数量(预期 2-5 个)
- 评定周期(预期 6-12 个月)
- 评定费用(预期 50-200 万欧元/次,未公开验证的猜想)
- 评定不通过后的补救机制
5.2 观察点二:中美 AI Safety 互认机制是否成形
Frontier Model Forum(FMF)2025 年提出"前沿模型安全互认机制"(Mutual Recognition of Frontier Model Safety Evaluations),但截至 2026-06 该机制仍未落地。关键观察指标:
- 是否推出统一 ASL 互认标准
- 是否纳入中国头部公司(DeepSeek、阿里、字节、智谱、月之暗面)
- 是否建立跨大西洋红队评估师资质互认
5.3 观察点三:AGI 触发条件的全球协调
Anthropic RSP v3.0、OpenAI Preparedness v2、DeepMind Frontier Safety Framework v2 均给出"AGI 触发条件"的内部定义,但三家的定义互不兼容:
- Anthropic:ASL-5 = "模型能自主完成 50%+ 的 RLHF 研究员任务"
- OpenAI:Preparedness 满血版 = "模型在所有 Preparedness 风险维度均达到 Critical"
- DeepMind:FSF v2 = "模型在所有 AGI 定义性能力(long-horizon planning、recursive self-improvement)上达到人类专家水平"
未公开验证的猜想:预计 2026 H2 至 2027 H1,FMF 或联合国 AI Advisory Body 将尝试推出"全球 AGI 触发条件协调版本"——但由于三家的底层假设互不兼容,协调版本大概率会被稀释为"原则声明"而非"可执行阈值"。
六、结论:三轨分化是不可逆的工程现实
回到文章开头的问题:2026 H2 全球 AI Safety 治理范式是否走向协调?
基于本文分析的工程现实,答案倾向于"短期分化、长期缓慢收敛":
- 短期(2026 H2 - 2027 H1):三轨范式继续分化,Anthropic ASL 路径强化内部硬约束、OpenAI Preparedness 路径软化为董事会决策、欧盟监管路径强化事后评估、中国备案路径强化事前工程审查。对齐研究人员继续流动但规模可控。
- 中期(2027-2028):随着 EU AI Act GPAI 评定的实际落地 + Frontier Model Forum 互认机制成形,美欧之间的 ASL/Preparedness 互认概率较高(约 60-70%,未公开验证的猜想);中美之间的互认概率较低(约 20-30%)。
- 长期(2028+):随着 AGI 触发条件的工程化推进 + 全球重大事故的发生(未公开验证的猜想:预计 2027-2029 间会有 1-2 次全球性 AI 事故触发监管协调),三轨范式可能在"事故驱动"下走向最低限度的协调——但这取决于事故的严重程度而非治理范式的内生演化。
对从业者的建议:
- 如果你在前沿实验室从事对齐研究,优先考虑 ASL/Preparedness 路径的工程化训练(红队、capability evaluation、interpretability)——这是 2026-2028 全球最稀缺的人才类型
- 如果你在 AI 治理 / 政策研究,优先积累跨大西洋 + 跨太平洋的比较治理视角——三轨范式的深度理解是政策岗位的核心竞争力
- 如果你在 AI 产品 / 工程团队,优先理解备案制的工程要求(关键词过滤、内容安全评估、训练数据审查)——这是 2026 H2 中国市场最直接的合规成本
最后一句话:AI Safety 治理范式的三轨分化不是"政治分歧"而是"工程现实"——Anthropic 的 ASL 阈值假设"能力可量化"、OpenAI 的 Preparedness 假设"评分可决策"、中国备案制假设"训练可审查",三种假设在工程层面互不兼容。理解这种不兼容性,比理解任何具体政策文本都更重要。
参考文献
- Anthropic. (2025). Responsible Scaling Policy v3.0. https://www.anthropic.com/rsp
- OpenAI. (2026). Preparedness Framework v2 beta. https://openai.com/preparedness
- European Parliament. (2024). Regulation (EU) 2024/1689 (AI Act). https://eur-lex.europa.eu/eli/reg/2024/1689/oj
- European Commission. (2026). Code of Practice for GPAI v0.9 (draft). https://digital-strategy.ec.europa.eu/en/policies/ai-code-practice
- 国家互联网信息办公室. (2023). 生成式人工智能服务管理暂行办法. http://www.cac.gov.cn/2023-07/13/c_1690898327029107.htm
- 全国信息安全标准化技术委员会. (2024). TC260-PG-20231023 生成式人工智能服务安全基本要求. https://www.tc260.org.cn/
- METR. (2026). Autonomous Replication Evaluation Methodology. https://metr.org
- AISR. (2026). Third-Party Red Team Assessment Standards for Frontier Models. https://www.aisr.org
- Anthropic. (2026). Claude Opus 4 ASL-3 Safety Report (Q1 2026). https://www.anthropic.com/safety
- OpenAI. (2026). Preparedness Scorecard Q1 2026. https://openai.com/safety/preparedness
- DeepMind. (2025). Frontier Safety Framework v2. https://deepmind.google/discover/blog/
- Frontier Model Forum. (2025). Mutual Recognition Working Group Charter. https://www.frontiermodelforum.org
- Apollo Research. (2026). Scheming Evaluations for Frontier Models: Methodology and Results. https://www.apolloresearch.ai
- UN Secretary-General's High-Level Advisory Body on AI. (2024). Interim Report: Governing AI for Humanity. https://www.un.org/en/ai-advisory-body
免责声明:本文为前瞻分析,所有 2026 H2 - 2027 预测部分标注"未公开验证的猜想"。引用融资数据、监管细节时请以官方一手文件为准。本文中部分行业人才流动数据基于 LLM 训练数据中的公开信息估算,未经独立机构完整统计。