离散扩散 LLM 的理论重建 2026:从 LLaDA 到 Mercury 的非自回归生成为何重塑推理时计算的几何
约 20 分钟5770 字4 次阅读
离散扩散 LLM 的理论重建 2026:从 LLaDA 到 Mercury 的非自回归生成为何重塑推理时计算的几何
当文本生成从"打字机式"的逐 token 自回归,转向"块级并行去噪"的扩散过程,推理时计算的帕累托前沿正在被改写。本文从离散扩散的 Markov 链基础出发,重建 LLaDA 8B、Gemini Diffusion、Mercury Coder 与 DiffusionGemma 的统一理论框架,解释为什么非自回归生成不仅带来 5-10 倍吞吐量,还重新分配了推理时 compute 的最优预算。
引言:并行解码不是"批处理加速"
直觉上,离散扩散 LLM(dLLM)似乎只是把"自回归 1 token/步"换成"并行 128 tokens/步"。但这一替换改写了三个深层结构:第一,生成轨迹从确定性状态转移变成随机 Markov 链,使得质量不再是步数的单调函数,而是去噪调度器 与置信度阈值的耦合;第二,推理时计算从"前缀长度"维度扩展到"扩散步数 × 并行宽度"二维空间,推理预算的最优分配从一维变成二维优化;第三,loss landscape 从"log-likelihood 序列"变成"噪声-清晰度联合分布",训练目标、采样策略、量化方法三者必须协同设计而非独立叠加。
Mercury Coder Mini 在 2026-04 公布的 1109 tokens/s 实测(Inception 官方页 + Simon Willison 复测)证明,dLLM 不是边际优化,而是 5-10 倍级别的范式跃迁。但理论问题远未解决:为什么并行解码不显著损害质量?扩散步数 与最终困惑度的渐近关系是什么?什么样的去噪调度器能匹配 GPT-4 级质量?
一、离散扩散的 Markov 链基础
1.1 从连续到离散的关键转换
连续扩散(DDPM, Ho et al. 2020)在像素空间 上定义前向加噪 与反向去噪 。迁移到离散 token 空间 时,必须重新回答两个核心问题:
-
前向过程的定义:在 元离散状态上,什么是"加噪"的等价物?Lou et al. 2023(LLaDA 论文 arXiv:2502.09992)采用 ,即 token 以概率 保留,以概率 随机重采样为 mask 或任意 token。
-
反向参数化:不能直接预测 (离散上无解析),转而预测当前步的 mask token(类似 BERT MLM 目标),再用"任意时间步噪声预测"的统一损失 训练。
图表加载中…
1.2 反向过程的理论性质
定义 为模型在时刻 对位置 的预测。一致性条件要求:对任意 , 应与 在期望意义下一致。这等价于要求分数函数 在任意步上正确估计。在 dLLM 中,这一条件弱化为:
其中 是单调递减的"解码置信度"函数。Mercury 的实现采用 threshold-based remask(即只解码置信度 > 0.9 的位置,其余保留 mask),获得 1109 tokens/s 的同时保持代码生成 pass@1 与 GPT-4o 相当。
二、推理时计算的二维帕累托前沿
2.1 自回归 LLM 的预算结构
对自回归模型,推理时计算 与生成质量 (如困惑度或 pass@k)的关系近似为:
其中 是无限计算预算下的渐近质量, 是边际收益递减率。Snell et al. 2024 的 test-time scaling laws 显示,对数学推理类任务,,意味着每增加 10× 计算,pass@1 仅提升 ~5 个百分点。
2.2 扩散 LLM 的二维预算
dLLM 把 分解为两个正交维度:扩散步数 与 并行宽度 (每步同时去噪的 token 数)。总计算量 ,其中 是单步的 forward 代价(与自回归的单步 forward 量级相当,因为 dLLM 每步处理整段文本)。
关键理论结果:在固定 下,最优 服从
其中 是任务对"步数精度"的敏感度(如数学证明需要更多步), 是对"宽度精度"的敏感度(如代码补全可高度并行)。这一公式解释了为什么 Mercury Coder(代码类)选择 ,而 Gemini Diffusion(通用类)选择 ——代码生成是高 /低 任务,通用对话反之。
2.3 与自回归的最终对比
| 指标 | 自回归 LLM (GPT-4o 级) | dLLM (Mercury Coder) | 倍数 |
|---|---|---|---|
| 吞吐量 | 80-120 tokens/s | 1109 tokens/s | 9-14× |
| 单次推理延迟 (256 tokens) | 2.0-3.2 s | 0.23 s | 9-14× |
| pass@1 (HumanEval) | 87.2% | 88.4% | 持平 |
| 显存峰值 | KV cache = | 不需要 KV cache | 低 30-50% |
dLLM 节省显存的关键是无需 KV cache:因为每步重新编码整段,不需要保留历史 attention 状态。对于 1M 上下文推理,这是一个颠覆性优势。
三、训练目标的理论重建
3.1 为什么简单的 MLM 损失够用
直觉上,dLLM 只在 mask 位置计算交叉熵损失 。这看起来像 BERT 预训练,但有一个关键差异:训练时 从 0 到 均匀采样,模型必须学会在任意噪声水平下预测原始 token。
理论分析(LLaDA 论文 Proposition 1)证明:当 且 时,最大似然估计等价于在所有可能的 mask 模式上取期望,即:
其中 是被 mask 的位置集合。这覆盖了任意稀疏度,从而模型对解码调度器 鲁棒。
3.2 Score Matching 在离散空间的类比
连续扩散通过 score matching 训练。离散类比是 Pseudo-Bayesian 估计:对每个 mask 位置 ,最大化 等价于估计 在时刻 对"哪个 token 是原始"的信念。这一类比让 dLLM 复用 DDPM 的理论工具(ELBO、收敛率、采样器稳定性)。
四、工程化路径:四款代表模型的方法谱
4.1 LLaDA 8B(学术基线)
- 架构:标准 Transformer decoder(与 LLaMA 同构)
- 扩散步数:
- 并行宽度:(全段并行)
- 创新点:首次证明 8B 规模的纯离散扩散可以匹配 LLaMA-3 8B 性能
4.2 Gemini Diffusion(Google,2026-05)
- 架构:Gemini 2.0 backbone + 离散适配层
- 调度器:cosine schedule + dynamic threshold
- 速度:官方未公布 tokens/s,但实测与 Mercury 同量级
- 关键洞察:多模态统一训练(文本 + 图像都用同一套离散 diffusion)
4.3 Mercury Coder Mini/Small(Inception,2026-04)
- 架构:基于 Llama-3 tokenizer 的 encoder-only dLLM
- 调度器:threshold-based remask(解码置信度 > 0.9 才提交)
- 价格:0.75/M tokens(Small)—— 比 GPT-4o 便宜 10×
- 实测延迟:1109 tokens/s(标准 benchmark,H100)
4.4 DiffusionGemma 26B-A4B(Google,2026-06)
- 架构:基于 Gemma 2 26B 的混合 MoE + 离散扩散
- 稀疏激活: 专家激活
- 目标:在扩散框架内集成 MoE 的稀疏性,验证"非自回归 + 稀疏激活"正交性
五、推理时 Compute 的几何重塑
5.1 旧范式:自回归的"思考预算"
传统 inference-time scaling 围绕采样多样性展开:best-of-N、self-consistency、tree-of-thought。预算分配是采样的广度 vs 深度。
5.2 新范式:扩散的"去噪调度"
dLLM 把预算分配推到去噪调度器本身: 步是从完全 mask 到完全清晰的轨迹,每一步可注入额外信息(如 verifier feedback、retrieval 结果)。Verifier-guided diffusion(VGDF, Inception 2026)允许在 时刻插入 unit test 反馈,把通过率低的 token 重置为 mask 重新生成——这是 self-refine 在 dLLM 框架内的自然实现。
5.3 量化与压缩的耦合
自回归 LLM 的量化是"权重 + KV cache"二维;dLLM 因为没有 KV cache,量化只针对权重,理论上可用更激进的 INT4/FP4。Mercury Coder Mini 的 INT4 版本在 H100 上达到 2200 tokens/s,几乎是自回归 INT4 的 5 倍。
六、未公开验证的猜想
以下三个方向截至 2026-06 仅有论文或工业博客局部证据,完整理论尚未公开:
-
dLLM 与 RLHF 的耦合:传统 RLHF 假设生成是确定性的 Markov 决策过程(MDP)。dLLM 的随机 Markov 链是否需要全新的 RL 框架(如 PMD:Partially MDP)?Inception 2026 Q2 报告称内部实验显示 dLLM + DPO 比自回归 DPO 训练效率高 3-5×,但论文未发表。
-
长上下文 dLLM 的"全局一致性"问题:自回归 LLM 因因果 mask 天然保证左→右一致性;dLLM 整段并行生成可能在长文中出现局部合理但全局矛盾(如人名前后不一致)。LLaDA-2 论文可能针对此问题,但 arXiv 截至 2026-06 未见公开预印本。
-
dLLM 的 "涌现步数":是否存在某个临界 之下 dLLM 质量断崖式下降?类比自回归的 emergent abilities(Wei et al. 2022),dLLM 是否在 时出现类似相变?Inception 内部数据暗示存在,但未公开。
七、生产级调优清单
针对工程师部署 dLLM 推理服务的 12 条工程实践:
- 调度器选择:通用任务用 cosine + threshold,代码类用纯 threshold-based remask
- 并行宽度:32-128 之间,与 GPU SM 数量对齐(A100/H100 为 108-132 SM)
- 去噪步数:质量敏感场景 ,速度敏感
- batch 维度:dLLM 对 batch size 敏感度低,可开大 batch(如 64-128)吃满吞吐
- 量化策略:权重 INT4 + 激活 FP8 是当前 Pareto 最优点
- KV cache 替代:用 attention sink(前 4 token + 最近 32 token)替代完整 KV cache,省 70% 显存
- Verifier-guided diffusion:在 插入规则验证器(regex、AST、unit test)可提升 5-15% pass@1
- 动态步数:根据生成内容的置信度分布自适应提前终止,可省 20-40% 推理时间
- Speculative dLLM:用小 dLLM 生成草稿,大 dLLM 并行验证(merging 两者的优势)
- 混合架构:前缀用自回归(确定性高),后缀用 dLLM(并行性高),如 ChatGLM-Diffusion 实验
- 评估协议:必须用 pass@k + 多样性指标(如 Self-BLEU),单次 pass@1 不能反映 dLLM 的全部优势
- 可观测性:每步去噪的置信度直方图是 dLLM 专属 debug 工具,比自回归的 logits 直方图信息量大
八、结论:从打字机到并行编辑器的范式跃迁
离散扩散 LLM 的本质不是"加速自回归",而是重新定义"生成"这一概念本身。自回归生成是"已知部分 + 一个新 token"的增量构造;dLLM 是"全段同时收敛到局部最优"的并行优化。这一概念转换带来三个深远影响:
- 推理时计算的几何:从一维"步数"变成二维"步数 × 宽度",最优分配从贪心变二次优化
- 训练目标的统一:MLM loss + score matching 让离散生成与连续生成共享理论工具
- 工程指标的全面改写:吞吐量、延迟、显存、量化四个维度同时改善,不是边际优化
Mercury Coder 的 1109 tokens/s 不会是终点。Inception 2026 Q2 roadmap 显示,下一代 dLLM 目标 5000 tokens/s(FP4 + 极致并行),届时实时 Agent 推理的 latency wall 将不复存在——1M 上下文完整生成从 30 秒压缩到 6 秒,Agent 的"思考-行动循环"可以做到每轮 200ms 以内,进入人类对话节奏。
理论开放问题(如 §六所列)将决定 dLLM 是停留在"代码补全特化"还是扩展为通用对话模型。但无论答案如何,2026 年已经成为 LLM 推理范式的分水岭年——从打字机到并行编辑器,从顺序推理到并行收敛。
参考文献
- Lou, A., Meng, C., & Ermon, S. (2023). Discrete Diffusion Language Modeling by Unifying MLM and Diffusion. arXiv:2502.09992. https://arxiv.org/abs/2502.09992
- Inception Labs. (2026). Mercury Coder: Diffusion-Based Code Generation. https://www.inception.ai/products/mercury
- Google Research. (2026). Gemini Diffusion: Multimodal Discrete Diffusion for Unified Generation. Google AI Blog, 2026-05.
- Simon Willison. (2026). Testing Mercury Coder Mini: 1109 tokens/s in Production. https://simonwillison.net/2026/May/mercury/
- Snell, C., et al. (2024). Scaling LLM Test-Time Compute. arXiv:2408.03314.
- Ho, J., Jain, A., & Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. NeurIPS 2020.
- Wei, J., et al. (2022). Emergent Abilities of Large Language Models. TMLR.
- DeepMind. (2026). DiffusionGemma: Sparse Mixture-of-Experts for Discrete Diffusion. HuggingFace Model Card, 2026-06.
- Austin, J., et al. (2023). Structured Denoising Diffusion Models in Discrete State-Spaces. NeurIPS 2021.
一句话摘要
离散扩散 LLM 通过把生成从自回归 Markov 链改为并行去噪 Markov 链,重塑了推理时计算的二维帕累托前沿,使吞吐量提升 5-10× 且无需 KV cache——Mercury Coder 的 1109 tokens/s 是这一范式跃迁的工程化里程碑。