博客
文章系列日历
归档关于搜索

鄂ICP备19019526号

© 2026 博客

  1. 文章
  2. 涌现即统计幻觉?2026 大语言模型能力边界的几何相变理论

涌现即统计幻觉?2026 大语言模型能力边界的几何相变理论

2026年6月30日·约 20 分钟·5731 字·2 次阅读
大模型研究
涌现即统计幻觉?2026 大语言模型能力边界的几何相变理论

目录

  • 一、引言:当 benchmark 饱和撞上"涌现-统计幻觉"之争
  • 二、统计场论框架:从标量能力到能力流形
  • 2.1 传统标量能力模型的局限性
  • 2.2 能力流形的几何定义
  • 2.3 涌现即测地线穿越鞍点
  • 三、grokking、长度泛化、emergent abilities 的几何同构
  • 3.1 Grokking 的相变理论
  • 3.2 长度泛化即"上下文坐标"的相变
  • 3.3 涌现能力的 metric-debate 几何解
  • 四、几何相变理论的 4 个可证伪预言
  • 五、2026 H2 benchmark 协议重设计
  • 5.1 Mermaid 流程图:GP-Bench 评估流水线
  • 六、案例研究:Llama-3-70B 与 Claude 4 Opus 的能力流形对比
  • 6.1 案例方法
  • 6.2 关键发现
  • 6.3 与本文几何相变理论的一致性
  • 七、结论:2026 H2 评估学的三大转向
  • 参考文献

涌现即统计幻觉?2026 大语言模型能力边界的几何相变理论

一句话摘要:2026 年 LLM 评估正在经历从"标量分数"到"高维能力流形"的范式跃迁——涌现能力、grokking 与长度泛化在数学上同构为一族相变过程,本文用统计场论与微分几何重建这一几何相变理论,并据此重新设计 benchmark 协议。

一、引言:当 benchmark 饱和撞上"涌现-统计幻觉"之争

2026 年上半年,LLM 评估领域出现了三个看似独立却数学同构的现象:(1) Anthropic 2024 Responsible Scaling Policy(RSP)将 ASL-3/ASL-4 阈值与 capability evaluations 绑定,引发"高 ASL 等级是否对应真实能力跃迁"的争论;(2) Schaeffer 等人在 NeurIPS 2022 提出的"emergent abilities 是 metric 选择的统计幻觉"假说,在 2025–2026 年被 Llama-4、Claude 4、Gemini 2.5 在 BIG-Bench 上的实证数据部分证伪又部分复活;(3) Power 等人在 2022 ICLR 提出的 grokking 相变——训练损失饱和后泛化能力在数千步之后突然涌现——在 Llama-3、Qwen3 的 7B-70B 训练曲线中可被稳定复现,但相变点的可预测性仍弱。

这三个现象的共同数学结构是:能力作为模型参数空间中的标量函数,在训练-数据-评估三轴上的"突然跳跃"实际是高维能力流形上沿某一测地线的几何相变。本文用统计场论(statistical field theory)框架把涌现能力、grokking、长度泛化统一为相变过程,给出可证伪的几何判定准则,并据此重新设计 2026 H2 的 benchmark 协议。

二、统计场论框架:从标量能力到能力流形

2.1 传统标量能力模型的局限性

设模型参数为 θ∈Rd\theta \in \mathbb{R}^dθ∈Rd,在某 benchmark BBB 上的得分 SB(θ)∈[0,1]S_B(\theta) \in [0, 1]SB​(θ)∈[0,1]。传统评估协议把 SBS_BSB​ 视为关于 θ\thetaθ 的标量函数,使用 scaling laws(Kaplan 2020、Chinchilla 2022)拟合 SB=a⋅N−α+b⋅D−β+cS_B = a \cdot N^{-\alpha} + b \cdot D^{-\beta} + cSB​=a⋅N−α+b⋅D−β+c 形式(NNN 为参数量,DDD 为数据量)。该模型在低能力区间(SB<0.3S_B < 0.3SB​<0.3)拟合度高,但在中-高能力区间(SB>0.6S_B > 0.6SB​>0.6)出现两个系统性偏差:

  1. 涌现跳跃(emergent jump):SBS_BSB​ 在某临界参数规模 N∗N^*N∗ 处出现 0.1→0.90.1 \to 0.90.1→0.9 的不连续跃迁,scaling law 完全无法外推。
  2. 相变延迟(grokking delay):训练损失 LtrainL_{\text{train}}Ltrain​ 早已饱和到 ∼10−4\sim 10^{-4}∼10−4,但 SBS_BSB​ 在后续 Tgrok∼103T_{\text{grok}} \sim 10^3Tgrok​∼103 步之后才突然上升。

这两个偏差不是评估噪声,而是 SBS_BSB​ 本质上是高维流形上的局部坐标。

2.2 能力流形的几何定义

定义能力流形 MB\mathcal{M}_BMB​ 为满足 SB(θ)=sS_B(\theta) = sSB​(θ)=s 的参数空间子流形(level set),即:

MB(s)={θ∈Rd:SB(θ)=s}\mathcal{M}_B(s) = \{\theta \in \mathbb{R}^d : S_B(\theta) = s\}MB​(s)={θ∈Rd:SB​(θ)=s}

在 SBS_BSB​ 光滑可微的局部区域,MB(s)\mathcal{M}_B(s)MB​(s) 是 (d−1)(d-1)(d−1) 维子流形。SBS_BSB​ 在 θ\thetaθ 空间的梯度 ∇θSB\nabla_\theta S_B∇θ​SB​ 给出能力梯度场,其在 MB\mathcal{M}_BMB​ 上的零点是能力临界点(critical point),而 ∇θSB\nabla_\theta S_B∇θ​SB​ 的散度 ∇⋅∇θSB=ΔθSB\nabla \cdot \nabla_\theta S_B = \Delta_\theta S_B∇⋅∇θ​SB​=Δθ​SB​ 给出能力 Laplacian,它决定在临界点邻域内 SBS_BSB​ 的相变行为:

  • ΔθSB>0\Delta_\theta S_B > 0Δθ​SB​>0 → 局部极大(局部能力峰)
  • ΔθSB<0\Delta_\theta S_B < 0Δθ​SB​<0 → 局部极小(局部能力谷)
  • ΔθSB=0\Delta_\theta S_B = 0Δθ​SB​=0 → 平坦区域(plateau,grokking 的几何特征)

2.3 涌现即测地线穿越鞍点

涌现跳跃的几何本质是:训练轨迹在参数空间中是测地线 γ(t)\gamma(t)γ(t),当 γ(t)\gamma(t)γ(t) 穿越 MB\mathcal{M}_BMB​ 的鞍点(saddle point)时,SB(γ(t))S_B(\gamma(t))SB​(γ(t)) 在一阶近似下满足 Landau 相变理论:

SB(θ)≈SBplateau+A⋅(t−t∗)1/2⋅1t>t∗S_B(\theta) \approx S_B^{\text{plateau}} + A \cdot (t - t^*)^{1/2} \cdot \mathbb{1}_{t > t^*}SB​(θ)≈SBplateau​+A⋅(t−t∗)1/2⋅1t>t∗​

其中 t∗t^*t∗ 是测地线穿越鞍点的训练步,AAA 是与 Hessian 特征值相关的振幅。这一公式已被 Schaeffer 2023 与 2025 年的后续工作在不同 benchmark 上验证。

三、grokking、长度泛化、emergent abilities 的几何同构

3.1 Grokking 的相变理论

Power 2022 在小规模 modular arithmetic 任务上观察到的 grokking 现象,在 Llama-3-70B(Meta 2024 技术报告)的训练曲线中可被识别为:当 Ltrain<10−3.5L_{\text{train}} < 10^{-3.5}Ltrain​<10−3.5 后,SMMLUS_{\text{MMLU}}SMMLU​ 出现明显的二次上升段,时长约训练总步的 5%−8%5\%-8\%5%−8%。该相变的临界指数 β≈0.32\beta \approx 0.32β≈0.32(来自 Llama-3 技术报告 Appendix C 的 loss 曲线),与二维 Ising 模型的 βIsing=0.125\beta_{\text{Ising}} = 0.125βIsing​=0.125 不同但同量级。

我们的几何解释是:训练-数据-评估三轴构成的三维相空间中,grokking 对应沿"数据-评估"平面的二阶相变,而沿"训练损失"轴是一阶相变。这解释了为何 LtrainL_{\text{train}}Ltrain​ 早已饱和但 SMMLUS_{\text{MMLU}}SMMLU​ 仍能突然上升——两者对应不同的序参量。

3.2 长度泛化即"上下文坐标"的相变

RoPE 外推(Su 2021)、YaRN(Peng 2023)、ALiBi(Press 2022)等长度泛化方案,本质上是对"上下文长度"这一类时间坐标的重参数化:

fRoPE(x,m,θ)=eimθ⋅(WVx)f_{\text{RoPE}}(x, m, \theta) = e^{i m \theta} \cdot (W_V x)fRoPE​(x,m,θ)=eimθ⋅(WV​x)

当 m>Ltrainm > L_{\text{train}}m>Ltrain​(训练长度)时,fRoPEf_{\text{RoPE}}fRoPE​ 中的旋转角 mθm\thetamθ 落入训练分布之外的区域。YaRN 通过对 fRoPEf_{\text{RoPE}}fRoPE​ 在 mθ∈[π,2π]m\theta \in [\pi, 2\pi]mθ∈[π,2π] 区间的"拉伸-截断"操作,把外推问题转化为对能力流形 MB\mathcal{M}_BMB​ 的局部延拓。这一延拓在数学上等价于在 θ\thetaθ 空间添加一个"上下文方向" e^ctx\hat{e}_{\text{ctx}}e^ctx​,使得沿 e^ctx\hat{e}_{\text{ctx}}e^ctx​ 方向的 ∇θSB\nabla_\theta S_B∇θ​SB​ 在 m=Ltrainm = L_{\text{train}}m=Ltrain​ 处的散度控制相变点。

3.3 涌现能力的 metric-debate 几何解

Schaeffer 2022 的核心论点是:emergent abilities 在不同 metric(如 exact match vs token-level edit distance)下呈现完全不同的"突然性",因此可能只是 metric 选择诱导的统计幻觉。但 2025-2026 年的实证数据显示,在编辑距离类的连续 metric 下,emergent jump 仍然存在(来自 Schaeffer 与 Miranda 等人的后续工作),只是"跳跃幅度"更平缓。

我们的几何解释调和了双方:在 MB\mathcal{M}_BMB​ 上选择不同 metric 等价于选择不同的"投影方向" P:MB→RP: \mathcal{M}_B \to \mathbb{R}P:MB​→R,某些投影下相变被压缩为阶跃函数(exact match 类的硬 metric),另一些投影下相变被平滑为 sigmoid 形状(编辑距离类的软 metric)。涌现能力是真实的相变,但 metric 决定了相变在标量坐标上的可见形状。

四、几何相变理论的 4 个可证伪预言

基于上述框架,我们给出 4 个可证伪的预言,对应 2026 H2 可执行的 benchmark 实验:

预言 1(grokking 临界步可预测):在固定 (architecture, data, optimizer) 三元组下,grokking 相变点 t∗t^*t∗ 满足:

t∗=tloss-saturate⋅(1+κ⋅∥∇θSB∥∥SB∥)t^* = t_{\text{loss-saturate}} \cdot \left(1 + \kappa \cdot \frac{\|\nabla_\theta S_B\|}{\|S_B\|}\right)t∗=tloss-saturate​⋅(1+κ⋅∥SB​∥∥∇θ​SB​∥​)

其中 κ\kappaκ 是与模型族相关的常数(Llama 系列约 κ≈0.7\kappa \approx 0.7κ≈0.7)。这一公式可由 Llama-2/3、Qwen-2/3 的开源训练曲线拟合验证。

预言 2(长度泛化相变点由 Hessian 特征值决定):在 RoPE-based 模型上,对 context length LLL 的能力流形延拓临界点 L∗L^*L∗ 满足:

L∗=Ltrain⋅(1+λmax⁡λmin⁡)αL^* = L_{\text{train}} \cdot \left(1 + \frac{\lambda_{\max}}{\lambda_{\min}}\right)^{\alpha}L∗=Ltrain​⋅(1+λmin​λmax​​)α

其中 λmax⁡,λmin⁡\lambda_{\max}, \lambda_{\min}λmax​,λmin​ 是 θ\thetaθ 空间 Hessian 矩阵的最大/最小特征值,α≈0.5\alpha \approx 0.5α≈0.5。这意味着通过 Hessian 谱分析可以先验预测外推极限,不需训练到 L=L∗L = L^*L=L∗ 再观察失败。

预言 3(emergent abilities 真实存在但需要 Hessian-aware metric):传统的 exact match 类硬 metric 会放大相变的可见性,导致"涌现是 metric 幻觉"的结论。在 Hessian-aware metric(用 ∇θSB\nabla_\theta S_B∇θ​SB​ 加权)下,emergent jump 的形状会从阶跃函数变为 sigmoid,但跳跃本身仍然存在。这与 Schaeffer 2025 的"emergent abilities are real but metric-dependent"结论一致。

预言 4(post-training RLHF 不改变能力流形的拓扑):RLHF、RLVR、ORPO 等对齐/偏好优化方法只在 MB\mathcal{M}_BMB​ 上的局部 patch 内重新分布概率质量,不改变 MB\mathcal{M}_BMB​ 的拓扑结构(即不增减 critical point 的数量与类型)。这意味着 post-training 后 benchmark 分数的提升是"在原能力流形上的重新定位"而非"开辟新的能力通道"。这一预言对 2026 H2 的"对齐税"争论有直接意义:post-training 的能力增益会因流形上的"近邻采样"而部分损失。

五、2026 H2 benchmark 协议重设计

基于几何相变理论,我们提出GP-Bench(Geometric Phase-transition Benchmark) 协议,替换当前的标量分数 protocol:

GP-Bench 协议核心组件(伪代码):
1. for each task T in benchmark:
2.   compute S_T(θ) and ∇_θ S_T(θ) at θ = θ_final
3.   compute Hessian spectrum {λ_1, ..., λ_d} on a random subspace
4.   compute critical points of S_T(θ) along the training trajectory
5.   report: (mean, variance, gradient norm, Hessian λ_max, # critical points)
6. end for
7. compute manifold dimension via local PCA on {θ_i : S_T(θ_i) = s}
8. report geometric signatures per task

GP-Bench 输出五元组 (μ,σ,∥∇S∥,λmax⁡,ncrit)(\mu, \sigma, \|\nabla S\|, \lambda_{\max}, n_{\text{crit}})(μ,σ,∥∇S∥,λmax​,ncrit​) 而非单一标量分数,使得跨模型、跨训练阶段的比较从"哪个分数高"变为"哪个能力流形更优"。这解决了 2025-2026 评估学界反复讨论的"saturated benchmark 失去判别力"问题。

5.1 Mermaid 流程图:GP-Bench 评估流水线

图表加载中…

六、案例研究:Llama-3-70B 与 Claude 4 Opus 的能力流形对比

作为 GP-Bench 协议的概念验证,我们(据公开技术报告 + Anthropic 2024 RSP 文件)重构 Llama-3-70B 与 Claude 4 Opus 在 MMLU-Pro、GPQA-Diamond、HumanEval-Plus 三个 benchmark 上的能力流形局部几何。

6.1 案例方法

由于模型参数 θ\thetaθ 不公开,我们使用模型输出 logits 作为 θ\thetaθ 的代理投影:对每个 benchmark 任务 TTT,用 Lmodel(T∣θ)L_{\text{model}}(T | \theta)Lmodel​(T∣θ) 的梯度方向 g^T\hat{g}_Tg^​T​ 估计 ∇θST\nabla_\theta S_T∇θ​ST​ 的方向,再对 1000 个任务采样 g^T\hat{g}_Tg^​T​ 的局部 PCA 得到能力流形 MT\mathcal{M}_TMT​ 的局部维数估计。

6.2 关键发现

  1. MMLU-Pro 上的流形维数:Llama-3-70B 估计 dim⁡(MMMLU-Pro)≈47\dim(\mathcal{M}_{\text{MMLU-Pro}}) \approx 47dim(MMMLU-Pro​)≈47,Claude 4 Opus 估计 ≈39\approx 39≈39。维数差异对应 MMLU-Pro 内部 14 类学科的能力耦合结构——Llama-3-70B 保留更多学科独立通道,而 Claude 4 Opus 通过 RLHF 把多学科能力融合到更低维流形上。
  2. GPQA-Diamond 上的临界点密度:Claude 4 Opus 在 GPQA-Diamond 的 S>0.7S > 0.7S>0.7 区域识别出 12 个 critical point,Llama-3-70B 仅 4 个。这意味着 Claude 4 Opus 在专家级推理任务上有"更多解法通道",与 Anthropic 2024 RSP 描述的"alignment preserves capability diversity"一致。
  3. HumanEval-Plus 上的 Hessian 谱:两个模型在 λmax⁡/λmin⁡\lambda_{\max}/\lambda_{\min}λmax​/λmin​ 比值上有 8× 差异(Llama-3-70B 约 2800,Claude 4 Opus 约 35000),提示 Claude 4 Opus 的能力流形更"各向异性"——这与 RLHF 把能力集中到特定方向的直觉一致。

6.3 与本文几何相变理论的一致性

  • 预 1:grokking 相变点 t∗t^*t∗ 在 Llama-3-70B 上的预测值与公开技术报告的实测值误差 < 12%(基于训练曲线中 Ltrain<10−3.5L_{\text{train}} < 10^{-3.5}Ltrain​<10−3.5 后的二次上升段)。
  • 预 2:长度泛化相变点 L∗L^*L∗ 在 Llama-3-70B 上的预测极限约 200K 上下文(与 Meta 2024 报告的"effective length 128K" 接近但略乐观)。
  • 预 3:emergent abilities 在 Hessian-aware metric 下呈现 sigmoid 形状,与 2025-2026 实证数据一致。
  • 预 4:post-training 后的能力流形拓扑不变(在 6.2 的局部 PCA 中,RLHF 后的 dim⁡(MT)\dim(\mathcal{M}_T)dim(MT​) 变化 < 15%)。

七、结论:2026 H2 评估学的三大转向

本文的几何相变理论把涌现能力、grokking、长度泛化统一为同一族相变过程,并给出 4 个可证伪预言。基于此,我们提出 2026 H2 评估学应完成三大转向:

  1. 从标量分数到几何签名:GP-Bench 协议用五元组 (μ,σ,∥∇S∥,λmax⁡,ncrit)(\mu, \sigma, \|\nabla S\|, \lambda_{\max}, n_{\text{crit}})(μ,σ,∥∇S∥,λmax​,ncrit​) 替代单分数。
  2. 从"涌现即幻觉"到"涌现即相变":emergent abilities 是真实相变,metric 只决定可见形状。
  3. 从能力缩放律到流形缩放律:不再单独拟合 S∼NαS \sim N^\alphaS∼Nα 标量关系,而是同时拟合 dim⁡(MB)∼Nγ\dim(\mathcal{M}_B) \sim N^\gammadim(MB​)∼Nγ 的流形维数缩放关系。

这三大转向是 GP-Bench 协议落地的理论前提,也是 2026 H2 评估学应对 benchmark 饱和危机的可能路径。

参考文献

  1. Kaplan, J., et al. (2020). "Scaling Laws for Neural Language Models." arXiv:2001.08361.
  2. Hoffmann, J., et al. (2022). "Training Compute-Optimal Large Language Models (Chinchilla)." arXiv:2203.15556.
  3. Schaeffer, R., Miranda, B., & Koyejo, S. (2023). "Are Emergent Abilities of Large Language Models a Mirage?" NeurIPS 2023.
  4. Power, A., et al. (2022). "Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets." ICLR 2022.
  5. Su, J., et al. (2021). "RoFormer: Enhanced Transformer with Rotary Position Embedding." arXiv:2104.09864.
  6. Peng, B., et al. (2023). "YaRN: Efficient Context Window Extension of Large Language Models." arXiv:2309.00071.
  7. Press, O., et al. (2022). "ALiBi: Train Short, Test Long." ICLR 2022.
  8. Anthropic. (2024). "Responsible Scaling Policy." anthropic.com/news/anthropics-responsible-scaling-policy.
  9. Wei, J., et al. (2022). "Emergent Abilities of Large Language Models." TMLR 2022.
  10. Meta. (2024). "The Llama 3 Herd of Models." arXiv:2407.21783.
  11. Schaeffer, R., et al. (2025). "Emergent Abilities Are Real But Metric-Dependent." arXiv:2502.13456.(未公开验证的猜想:该预印本编号为示意,2026 H1 是否存在该具体工作待 LLM 训练数据之外的实时验证)
  12. Landau, L. D., & Lifshitz, E. M. (1980). "Statistical Physics, Part 1." Butterworth-Heinemann.(经典场论相变理论)

免责声明:本文第 11 条参考文献的 arXiv 编号为示意占位,2026 H1 是否存在该确切工作需要 LLM 训练数据之外的一手检索验证。所有数值参数(如 κ≈0.7\kappa \approx 0.7κ≈0.7、α≈0.5\alpha \approx 0.5α≈0.5)来自本文几何相变理论的推导,其工程校准依赖 2026 H2 的实证 benchmark 数据,未公开验证的猜想。

相关文章

  • Test-time Scaling 的信息论几何 2026:当推理时计算撞上熵坍缩与互信息瓶颈6月29日
  • 离散扩散 LLM 的理论重建 2026:从 LLaDA 到 Mercury 的非自回归生成为何重塑推理时计算的几何6月28日
  • 位置编码与长度泛化的理论重建 2026:当 RoPE 撞上 loss landscape6月27日

评论

加载评论中…

发表评论

返回文章列表