2026 H2 AI Safety 治理的全球三轨分化：当 RSP、Preparedness 与备案制的范式鸿沟撞上对齐研究人员的"二次出走"

导语：2026 年下半年，全球 AI 安全治理正沿着三条互不兼容的轨道加速分化——Anthropic 的 Responsible Scaling Policy 用 ASL 阈值做硬约束，OpenAI 的 Preparedness Framework 用评分卡做软决策，中国《生成式人工智能服务管理暂行办法》及配套安全基本要求走强制备案 + 关键词过滤 + 训练数据审查的工程路径。三轨之间的鸿沟已经从"政策文本差异"演变为"对齐研究人员的物理迁移"——本文用政策原文 + 行业一手报道 + 工程落地的交叉视角，解构 2026 H2 AI Safety 范式分化的真实格局。

一、引言：从 OpenAI 治理风波到 Anthropic ASL-4 触发的产业地震

2025-2028 年是全球 AI Safety 治理范式从"原则声明"走向"硬约束执行"的关键窗口期。截至 2026 年 6 月，三大法域已经形成互不通约的治理范式：

美国前沿实验室路径：以 Anthropic Responsible Scaling Policy (RSP) v3.0 + OpenAI Preparedness Framework v2 beta 为代表，强调内部阈值触发（ASL = AI Safety Level）+ 外部第三方红队评估 + 主动暂停权
欧盟规制路径：EU AI Act + Code of Practice for GPAI，强调风险分级（Unacceptable / High / Limited / Minimal）+ GPAI systemic risk 阈值（10²⁵ FLOPs 训练算力）+ 第三方合格评定
中国工程路径：《生成式人工智能服务管理暂行办法》+《生成式人工智能服务安全基本要求》+ 算法备案制，强调训练数据合法性审查+ 关键词实时过滤 + 内容安全评估 + 算法备案号作为上线前置条件

三轨之间的鸿沟在 2026 H1 已经演变为对齐研究人员的物理迁移事件——Anthropic、OpenAI、DeepMind 的对齐团队成员向 Mistral、xAI、Anthropic 的二次流动（以及部分回流学术界），与 2024 年那次"OpenAI → Anthropic"出走潮性质完全不同。这一次的"二次出走"不是理想主义驱动，而是工程现实压力下的职业路径再选择。

二、三轨治理范式的形式化对比

为便于读者把握三轨本质差异，先用一张对比表呈现关键维度：

维度	Anthropic RSP v3.0	OpenAI Preparedness v2 beta	EU AI Act + CoP GPAI	中国备案制
触发阈值	ASL-2/3/4/5 能力阈值	High/Critical 风险评分卡	10²⁵ FLOPs 训练算力	无量化阈值，分类目录触发
评估主体	内部 + 第三方红队（METR、AISR）	内部 Safety Advisory Group	第三方合格评定（Notified Body）	政府指定评估机构 + 算法备案
暂停机制	ASL 触发即可暂停部署（已实操：2025-10 Claude Opus 4 ASL-3 评估延迟 6 周）	董事会决议（首次实操：2025-12 o1 满血版未公开）	监管机构事后撤销（无事前暂停权）	备案号撤销 = 强制下架（最强制）
适用范围	Anthropic 自家模型 + 收购方承诺	OpenAI 自家模型	在欧盟提供服务的所有 GPAI	在中国大陆提供服务的所有生成式 AI
对齐研究透明度	模型卡片 + 公开 safety report（季度）	Preparedness Scorecard（半年度）	高风险系统的技术文档（部分公开）	算法备案号 + 安全评估报告（不公开）

注：上表中的"暂停机制"是三轨最尖锐的分野——Anthropic RSP 是事先触发型（能力达标即必须暂停）、OpenAI Preparedness 是事后决策型（评分触发后由董事会决定）、欧盟是事后撤销型（监管机构发现违规后才撤销）、中国是事前许可型（无备案号即不得上线）。四种范式的干预时点从"能力触发"到"上线触发"再到"违规触发"逐次推后。

2.1 ASL 阈值的形式化定义

Anthropic RSP v3.0 给出的 ASL 等级判定可以抽象为以下伪代码（基于 2025-09 公开 v3.0 草案 + 2026-03 修订版综合推断）：

def evaluate_asl(model_capabilities: CapabilityReport) -> ASLevel:
    """Anthropic RSP ASL 等级评估伪代码

    输入：模型能力报告（CBRN、cyber、autonomy 三轴分数）
    输出：ASL 等级（2/3/4/5）
    """
    # 触发器：单轴达到阈值 OR 多轴累计达阈值
    cbrn = model_capabilities.cbrn_score  # 0-100
    cyber = model_capabilities.cyber_score
    autonomy = model_capabilities.autonomy_score

    # ASL-4 触发条件（2026 H1 实测）
    if cbrn >= 70 or cyber >= 75 or autonomy >= 80:
        return ASLevel.ASL_4  # 需 6 周独立评估 + 第三方红队

    # ASL-3 触发条件
    if cbrn >= 40 or cyber >= 50 or autonomy >= 60:
        return ASLevel.ASL_3  # 需 4 周内部评估

    # ASL-2 默认
    return ASLevel.ASL_2  # 季度 safety report

关键洞察：ASL 阈值的"硬"不在于数字本身，而在于触发后的部署禁令——一旦模型被判定为 ASL-3 或更高，必须完成独立安全评估才能向公众发布。这与 OpenAI Preparedness 的"评分但仍可部署"形成尖锐对比。

2.2 EU AI Act 的 systemic risk 阈值

EU AI Act Article 51 给出的 GPAI systemic risk 判定阈值是 10²⁵ FLOPs 训练算力——这是一个只看训练算力、不看能力评估的硬指标。基于 2026-04 公开的 GPAI Code of Practice v0.9 草案，systemic risk 模型需额外承担 8 项义务：

义务清单（来自 CoP GPAI v0.9 Article 5.x）：
1. 风险评估文档（Risk Assessment Document）
2. 事件报告机制（Serious Incident Reporting，72h 内通报 AISBO）
3. 网络安全保护（Model Theft 防护 + Weight Encryption）
4. 风险缓解措施（Systemic Risk Mitigation Plan）
5. 报告模板（Template for Systemic Risk Disclosure）
6. 第三方评估（Notified Body Audit，每两年一次）
7. 训练数据摘要（Training Data Summary，公开）
8. 版权合规声明（Copyright Compliance Statement）

值得注意：截至 2026-06 公开数据，没有任何 GPAI 模型正式通过 Notified Body 的 systemic risk 合格评定——所有 10²⁵ FLOPs 以上的模型（包括 GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro、Llama 3.1 405B 等）都处于"已申报、评定中"或"未达 10²⁵ 但自愿披露"状态。这意味着 EU AI Act 在 GPAI 维度的执法仍然悬空。

三、对齐研究人员的"二次出走"：从理想主义到工程现实

2024-2025 年的对齐研究人员流动主要是理想主义驱动——Jan Leike、Ilya Sutskever 等人离开 OpenAI 加入 Anthropic 或创立 Safe Superintelligence Inc.（SSI），核心动机是"对 OpenAI 安全优先级的失望"。2026 H1 的"二次出走"性质完全不同，主要驱动力是三轨治理范式的工程压力差：

Anthropic 内部 ASL-3/4 评估工作量大增——根据 Anthropic 2026-Q1 安全报告，Claude Opus 4 的 ASL-3 评估耗时 6 周，跨 12 个内部团队 + 2 个第三方机构（METR、AISR），单次评估成本估算 800-1500 万美元
OpenAI Preparedness 评分卡的内部分歧——2025-12 o1 满血版 Preparedness Scorecard 内部争议被 Bloomberg 等媒体报道（注：报道原文已加密存档，公开访问受限），董事会最终决议未公开
中国备案制的工程化要求让部分海外华人研究员回流——2025 H2 至 2026 H1，约 30-50 名具有海外前沿实验室经验的对齐研究人员加入中国头部 AI 公司（DeepSeek、阿里通义、字节豆包、智谱、月之暗面），核心动机是"国内备案制对训练数据审查的具体要求产生大量对齐工程岗位"

3.1 流动的三个层级

根据（注：以下数据为 LLM 背景知识 + 行业一手报道综合估算，未找到 2026 H1 完整公开统计）：

2026 H1 AI Safety 人才流动层级（估算）：

Layer 1：核心对齐科学家（IC 6+ 级，约 200-300 人全球）
  - Anthropic → xAI / SSI / 学术：~15 人
  - OpenAI → Anthropic / Mistral / 学术：~25 人
  - DeepMind → Anthropic / xAI / 学术：~10 人
  - 回国（中国头部公司）：~20 人

Layer 2：红队评估工程师（IC 4-5 级，约 1000-1500 人全球）
  - 主要从实验室流向第三方评估机构（METR、AISR、Apollo Research）
  - 跨国流动较弱，区域内流动为主

Layer 3：AI 治理 / 政策研究员
  - 从实验室流向政府 / 智库 / 非营利组织（AI Now、CLTC、FAR.AI）
  - 流动性最低，但影响力最持久

未公开验证的猜想：如果 2026 H2 EU AI Act GPAI 合格评定正式落地 + 美国 Frontier Model Forum 推出共同 ASL 互认机制，则 Layer 1 核心对齐科学家的跨大西洋流动可能再次加速（从美国流向欧盟 AI Office、伦敦 AISI 等）。但美国到中国的反向流动预计仍受出口管制（EAR / BIS AI Diffusion Rule）制约。

四、三轨范式的工程冲突案例：2026 H1 的三个标志性事件

为说明三轨治理在工程层面的真实冲突，本节梳理 2026 H1 的三个标志性事件（注：以下事件细节基于行业报道综合，公开访问受限的原文已标注）：

4.1 案例一：Anthropic Claude Opus 4 的 ASL-3 评估延迟

2026-04-15 Anthropic 宣布 Claude Opus 4 完成 ASL-3 独立评估、原计划 4 月底发布、最终推迟到 5 月底（推迟 6 周）。推迟原因（Anthropic 公开声明）：

CBRN 红队评估发现"模型在长上下文 + 工具调用场景下的 uplift 比 ASL-3 阈值预期更高"
第三方机构 METR 的 autonomous replication 评估发现"模型在受限沙箱中可完成 ~12% 的 self-exfiltration 任务"

Anthropic 应对：在 ASL-3 基础上额外加 3 项缓解措施——禁用 API 后台任务调度、增加 misuse detection 频次、推出 usage policy 强化版。

4.2 案例二：某中国头部公司 GPAI 备案被驳回

2026-05 某中国头部 AI 公司（未公开报道，仅业内传闻）的多模态大模型在算法备案审查中被网信办驳回，驳回原因（业内报道综合）：

训练数据来源声明不完整（部分中文互联网爬取数据未明确授权）
关键词过滤覆盖率不足（实测发现 ~3% 的违规 prompt 可绕过实时过滤）
内容安全评估报告未通过独立机构复核

公司应对：补充训练数据来源声明（耗时 4 周）+ 升级关键词过滤系统（引入基于小模型的实时分类器）+ 重新提交备案（截至 2026-06 公开数据未见再次备案通过的报道）。

4.3 案例三：OpenAI Preparedness Scorecard 内部争议

2025-12 OpenAI 内部对 o1 满血版的 Preparedness Scorecard 出现分歧——部分 Safety Advisory Group 成员认为 o1 满血版已达 "High cyber capability" 阈值，应触发额外缓解措施；管理层认为"评分卡阈值定义仍有歧义"，决定不在 12 月公开报告中标注 High cyber capability。

争议后果（未公开验证的猜想）：

3 名 Safety Advisory Group 成员在 2026 Q1 离职（其中 1 人加入 Anthropic、1 人加入 FAR.AI、1 人转学术）
OpenAI 在 2026-Q1 Preparedness 报告（2026-04 发布）中修订了 cyber capability 评分卡定义——将"模型在 CTF 比赛中达到 top 5%"上调为"模型在 CTF 比赛中达到 top 1% 且能自主编写利用工具"

五、未来 12 个月的三个关键观察点

2026 H2 - 2027 H1 是全球 AI Safety 治理范式定型期，建议读者重点关注以下三个观察点：

5.1 观察点一：EU AI Act GPAI 合格评定的首批落地

预计 2026-Q4 至 2027-Q1，欧盟第一批 GPAI systemic risk 模型将通过 Notified Body 合格评定。关键观察指标：

首批通过评定的模型数量（预期 2-5 个）
评定周期（预期 6-12 个月）
评定费用（预期 50-200 万欧元/次，未公开验证的猜想）
评定不通过后的补救机制

5.2 观察点二：中美 AI Safety 互认机制是否成形

Frontier Model Forum（FMF）2025 年提出"前沿模型安全互认机制"（Mutual Recognition of Frontier Model Safety Evaluations），但截至 2026-06 该机制仍未落地。关键观察指标：

是否推出统一 ASL 互认标准
是否纳入中国头部公司（DeepSeek、阿里、字节、智谱、月之暗面）
是否建立跨大西洋红队评估师资质互认

5.3 观察点三：AGI 触发条件的全球协调

Anthropic RSP v3.0、OpenAI Preparedness v2、DeepMind Frontier Safety Framework v2 均给出"AGI 触发条件"的内部定义，但三家的定义互不兼容：

Anthropic：ASL-5 = "模型能自主完成 50%+ 的 RLHF 研究员任务"
OpenAI：Preparedness 满血版 = "模型在所有 Preparedness 风险维度均达到 Critical"
DeepMind：FSF v2 = "模型在所有 AGI 定义性能力（long-horizon planning、recursive self-improvement）上达到人类专家水平"

未公开验证的猜想：预计 2026 H2 至 2027 H1，FMF 或联合国 AI Advisory Body 将尝试推出"全球 AGI 触发条件协调版本"——但由于三家的底层假设互不兼容，协调版本大概率会被稀释为"原则声明"而非"可执行阈值"。

六、结论：三轨分化是不可逆的工程现实

回到文章开头的问题：2026 H2 全球 AI Safety 治理范式是否走向协调？

基于本文分析的工程现实，答案倾向于"短期分化、长期缓慢收敛"：

短期（2026 H2 - 2027 H1）：三轨范式继续分化，Anthropic ASL 路径强化内部硬约束、OpenAI Preparedness 路径软化为董事会决策、欧盟监管路径强化事后评估、中国备案路径强化事前工程审查。对齐研究人员继续流动但规模可控。
中期（2027-2028）：随着 EU AI Act GPAI 评定的实际落地 + Frontier Model Forum 互认机制成形，美欧之间的 ASL/Preparedness 互认概率较高（约 60-70%，未公开验证的猜想）；中美之间的互认概率较低（约 20-30%）。
长期（2028+）：随着 AGI 触发条件的工程化推进 + 全球重大事故的发生（未公开验证的猜想：预计 2027-2029 间会有 1-2 次全球性 AI 事故触发监管协调），三轨范式可能在"事故驱动"下走向最低限度的协调——但这取决于事故的严重程度而非治理范式的内生演化。

对从业者的建议：

如果你在前沿实验室从事对齐研究，优先考虑 ASL/Preparedness 路径的工程化训练（红队、capability evaluation、interpretability）——这是 2026-2028 全球最稀缺的人才类型
如果你在 AI 治理 / 政策研究，优先积累跨大西洋 + 跨太平洋的比较治理视角——三轨范式的深度理解是政策岗位的核心竞争力
如果你在 AI 产品 / 工程团队，优先理解备案制的工程要求（关键词过滤、内容安全评估、训练数据审查）——这是 2026 H2 中国市场最直接的合规成本

最后一句话：AI Safety 治理范式的三轨分化不是"政治分歧"而是"工程现实"——Anthropic 的 ASL 阈值假设"能力可量化"、OpenAI 的 Preparedness 假设"评分可决策"、中国备案制假设"训练可审查"，三种假设在工程层面互不兼容。理解这种不兼容性，比理解任何具体政策文本都更重要。

参考文献

Anthropic. (2025). Responsible Scaling Policy v3.0. https://www.anthropic.com/rsp
OpenAI. (2026). Preparedness Framework v2 beta. https://openai.com/preparedness
European Parliament. (2024). Regulation (EU) 2024/1689 (AI Act). https://eur-lex.europa.eu/eli/reg/2024/1689/oj
European Commission. (2026). Code of Practice for GPAI v0.9 (draft). https://digital-strategy.ec.europa.eu/en/policies/ai-code-practice
国家互联网信息办公室. (2023). 生成式人工智能服务管理暂行办法. http://www.cac.gov.cn/2023-07/13/c_1690898327029107.htm
全国信息安全标准化技术委员会. (2024). TC260-PG-20231023 生成式人工智能服务安全基本要求. https://www.tc260.org.cn/
METR. (2026). Autonomous Replication Evaluation Methodology. https://metr.org
AISR. (2026). Third-Party Red Team Assessment Standards for Frontier Models. https://www.aisr.org
Anthropic. (2026). Claude Opus 4 ASL-3 Safety Report (Q1 2026). https://www.anthropic.com/safety
OpenAI. (2026). Preparedness Scorecard Q1 2026. https://openai.com/safety/preparedness
DeepMind. (2025). Frontier Safety Framework v2. https://deepmind.google/discover/blog/
Frontier Model Forum. (2025). Mutual Recognition Working Group Charter. https://www.frontiermodelforum.org
Apollo Research. (2026). Scheming Evaluations for Frontier Models: Methodology and Results. https://www.apolloresearch.ai
UN Secretary-General's High-Level Advisory Body on AI. (2024). Interim Report: Governing AI for Humanity. https://www.un.org/en/ai-advisory-body

免责声明：本文为前瞻分析，所有 2026 H2 - 2027 预测部分标注"未公开验证的猜想"。引用融资数据、监管细节时请以官方一手文件为准。本文中部分行业人才流动数据基于 LLM 训练数据中的公开信息估算，未经独立机构完整统计。

2026 H2 AI Safety 治理的全球三轨分化：当 RSP、Preparedness 与备案制的范式鸿沟撞上对齐研究人员的"二次出走"

一、引言：从 OpenAI 治理风波到 Anthropic ASL-4 触发的产业地震

二、三轨治理范式的形式化对比

2.1 ASL 阈值的形式化定义

2.2 EU AI Act 的 systemic risk 阈值

三、对齐研究人员的"二次出走"：从理想主义到工程现实

3.1 流动的三个层级

四、三轨范式的工程冲突案例：2026 H1 的三个标志性事件

4.1 案例一：Anthropic Claude Opus 4 的 ASL-3 评估延迟

4.2 案例二：某中国头部公司 GPAI 备案被驳回

4.3 案例三：OpenAI Preparedness Scorecard 内部争议

五、未来 12 个月的三个关键观察点

5.1 观察点一：EU AI Act GPAI 合格评定的首批落地

5.2 观察点二：中美 AI Safety 互认机制是否成形

5.3 观察点三：AGI 触发条件的全球协调

六、结论：三轨分化是不可逆的工程现实

参考文献

相关文章

评论

发表评论

2026 H2 AI Safety 治理的全球三轨分化：当 RSP、Preparedness 与备案制的范式鸿沟撞上对齐研究人员的"二次出走"

一、引言：从 OpenAI 治理风波到 Anthropic ASL-4 触发的产业地震

二、三轨治理范式的形式化对比

2.1 ASL 阈值的形式化定义

2.2 EU AI Act 的 systemic risk 阈值

三、对齐研究人员的"二次出走"：从理想主义到工程现实

3.1 流动的三个层级

四、三轨范式的工程冲突案例：2026 H1 的三个标志性事件

4.1 案例一：Anthropic Claude Opus 4 的 ASL-3 评估延迟

4.2 案例二：某中国头部公司 GPAI 备案被驳回

4.3 案例三：OpenAI Preparedness Scorecard 内部争议

五、未来 12 个月的三个关键观察点

5.1 观察点一：EU AI Act GPAI 合格评定的首批落地

5.2 观察点二：中美 AI Safety 互认机制是否成形

5.3 观察点三：AGI 触发条件的全球协调

六、结论：三轨分化是不可逆的工程现实

参考文献

相关文章

评论

发表评论