Post-training 范式 2026：从 SFT/RLHF 到 GRPO/DPO/RLVR 的工程化大爆发

如果说 2023 年是大模型"预训练"决胜负的一年（GPT-4、Claude 2、Llama 2），2024 年是"长上下文与多模态"的一年（Claude 3.5、Llama 3.1、Qwen2.5），那么 2025-2026 年真正的范式拐点，几乎一致地指向了后训练（post-training）。从 OpenAI o1/o3 到 DeepSeek-R1，从 Qwen3 到 Anthropic Claude 3.7 Sonnet，每一家头部实验室都不再单纯靠"更大、更多 token、更长 context"来推进能力曲线，而是把"对模型最后一公里的微调方法"做成了新的护城河。这篇文章就试图从工程视角，把这一轮 post-training 范式迁移讲清楚：它从哪里来、怎么变成今天的形状、哪些算法已经成为行业默认配置、踩过哪些坑、以及 2026 年我们应该把什么放进生产栈。

一、为什么 post-training 突然变得这么重要

在 2023 年之前，"post-training"基本等同于三件事的串联：SFT（supervised fine-tuning，用人工标注的高质量问答对做监督微调）→ RM（reward model，让人类对模型多个回答打分，训练一个打分模型）→ RLHF（用 PPO 等强化学习算法让语言模型去最大化 RM 的分数）。这条路线由 OpenAI 的 InstructGPT（arXiv:2203.02155，2022 年 3 月）开创，由 Anthropic 的 Constitutional AI（arXiv:2212.08073，2022 年 12 月）补上"用 AI 反馈替代部分人类反馈"的思路，是 2022-2024 年所有对齐工作的主轴。

但这条路线在 2024 年开始撞上三堵墙：

人类标注数据的边际收益骤降。SFT 阶段用几万条精心挑选的人工示范就能把基础模型拉到接近 GPT-4 水平（这一点在 Llama 3.1 的 405B 报告 arXiv:2407.21783 中有详细说明），但再往上做，每提升 1% 都需要指数级增长的人工成本。
RM 训练不稳定。一个 7B 的 reward model 在不同 batch、不同 prompt 上的分数分布方差极大，用它驱动 PPO 训练时经常出现"奖励黑客"——模型学会了骗 RM 而非真正解决问题。
PPO 的工程复杂度极高。需要同时维护 4 个模型（actor、critic、reference、reward），显存占用是单纯 SFT 的 4 倍以上，Ray/DeepSpeed 集群配置稍有不慎训练就崩。

正是这三点，催生了 2024-2026 年 post-training 的全面重构：用更少的人类标注、更稳定的优化目标、更易工程化的算法，把对齐和能力扩展做成可复现的流水线。

二、GRPO：当"组内相对排名"取代"绝对奖励"

GRPO（Group Relative Policy Optimization）是这一轮范式迁移里最具影响力的一笔。它由 DeepSeek 团队在 2024 年 2 月发布的 DeepSeekMath（arXiv:2402.03300）论文中首次提出，核心思想只有一句话：不再训练一个独立的 critic 网络，而是对同一个 prompt 采样一组 G 个回答，让模型在组内做相对排名比较，用排名差作为 advantage 估计。

公式上的简化是巨大的：PPO 需要 $\text{advantage} = r_t - V(s_t)$ ，其中 $V(s_t)$ 是一个独立训练的 value network；GRPO 把 $V(s_t)$ 替换成"同一组里所有回答的平均奖励 $\bar{r}$ "，因此省掉了 critic 模型。在 7B-70B 规模上，这意味着训练显存从 4× 降到 3×，训练速度提升 30-50%，并且因为奖励信号直接来自组内相对差，奖励黑客的概率被显著压低。

DeepSeek 在 2025 年 1 月把 GRPO 推向了工业级：DeepSeek-R1（arXiv:2501.12948，后正式发表于 Nature，DOI: 10.1038/s41586-025-09422-z）用纯强化学习（即 Zero RL，没有 SFT 冷启动）就让模型在 MATH、AIME、Codeforces 等可验证任务上涌现出"自我反思、验证、动态策略调整"等高阶推理行为。R1 论文的摘要原话是："the reasoning abilities of LLMs can be incentivized through pure reinforcement learning, obviating the need for human-labeled reasoning trajectories."

这个工作的真正冲击力不在"R1 跑分有多高"，而在它传递出的方法论信号：**"可验证任务"（数学、代码、STEM）**适合用 GRPO 这类基于规则奖励的算法规模化训练，因为它绕开了 RM 的不稳定问题——奖励直接由答案对错、是否通过单测给出。后续 Qwen3（2025 年 4 月 29 日发布，blog: qwenlm.github.io/blog/qwen3/）、Kimi K2、Llama 3.1 的后训练阶段都明确报告使用了 GRPO 或其变体。

截至 2026 年 6 月，GRPO 的工业生态已经相当成熟：huggingface/trl 直接提供 GRPOTrainer 接口（仓库 star 数 18.6k），volcengine/verl（HybridFlow 框架，star 数 21.9k）和 OpenRLHF/OpenRLHF（star 数 9.6k）是国内最常用的两个分布式 RL 后训练框架。这意味着任何 7B+ 的开源模型，今天都可以在 4-8 张 H100 上跑通 GRPO 后训练流水线，这是 2024 年初完全不可想象的工程民主化速度。

三、DPO 及其家族：把"对齐"从强化学习拉回监督学习

GRPO 解决的是"如何让模型在可验证任务上更准"，但对"人类主观偏好"（helpful、harmless、aesthetic）这一类没有标准答案的任务，GRPO 就力不从心了。这条线在 2023 年被 DPO（Direct Preference Optimization，arXiv:2305.18290）打开了一个新口子。

DPO 的核心观察是：RLHF 中那个 RM 可以直接被"参考模型 + 当前模型的 log 概率之差"等价表达，因此整个强化学习过程可以被压缩成一个简单的二分类交叉熵损失：

\mathcal{L}_{\text{DPO}} = -\log\sigma\left(\beta \log\frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log\frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)}\right)

其中 $y_w$ 是偏好的回答， $y_l$ 是不偏好的回答， $\pi_{\text{ref}}$ 是参考模型（通常是 SFT 后的模型）。这个损失不需要采样、不需要 RM、不需要 PPO，纯 PyTorch 几十行就能跑起来，在学术圈和工业界同时爆火。

DPO 之后两年（2024-2026），又衍生出了 IPO、SimPO、KTO、ORPO 一大堆"对 DPO 的修补"——它们针对 DPO 的不同失败模式（reward over-optimization、长度偏差、参考模型耦合等）做改进。Kimi K2 团队在 2025 年公开的报告中明确提到 K2 的对齐阶段使用了 SimPO + DPO 的组合，而 Llama 3.1 405B 的官方报告（arXiv:2407.21783）则详细描述了 5 轮"Rejection Sampling + DPO + PPO"的迭代式后训练流程。

工程上的关键经验：DPO 这一族算法在小规模（< 70B）和短上下文（< 8k）上几乎是无脑首选，但一旦模型上到 400B 量级、长上下文到 128k，DPO 的训练稳定性会下降——这是因为"参考模型"和"当前模型"在长上下文中分布差异放大，导致损失曲面变得崎岖。这时候更稳妥的做法是DPO 和 PPO 串联：用 DPO 做粗调，再用 PPO 做精调。

四、RLVR 与 Process Reward：当"奖励"从黑箱变成可验证规则

如果说 GRPO 和 DPO 是 2024 年的"算法层革命"，那么 2025 年最深刻的转变发生在奖励信号这一层——也就是"我们到底用什么来给模型打分"。

RLVR（Reinforcement Learning with Verifiable Rewards）是 OpenAI 在 o1 之后广为宣传的一个新术语。o1 System Card（arXiv:2412.16720，2024 年 12 月）首次系统披露 o1 的训练方式：在数学、代码等任务上，奖励完全由规则生成——答案对、单元测试通过、字符串匹配——根本不需要人类打分。OpenAI 没有开源 o1 的训练代码，但 DeepSeek-R1 公开复现并放大了这个范式的影响力。

更进一步的是Process Reward Model（PRM）——给模型的"每一步推理"打分，而不是只给最终结果打分。这个方向最早由 OpenAI 在 2023 年的"Let's Verify Step by Step"（arXiv:2305.20050）中提出，论文同时开源了 PRM800K 数据集（80 万条步骤级人类反馈），在 MATH 数据集的子集上把过程监督模型的解题率推到了 78%。

但 PRM 的工业落地一波三折。DeepSeek-R1 论文明确指出"PRM 在工程上有三大难处"：

通用任务的"正确步骤"难以定义（不像数学有标准解法）；
PRM 本身需要大量人工标注，规模化困难；
PRM 容易被"看似合理但错误的中间步骤"骗到（reward hacking 风险）。

因此 R1 选择了"outcome-based GRPO"——只对最终答案打分，让模型自己决定中间路径。这个选择与 OpenAI o1 的"hidden CoT + outcome scoring"路径在工程上不谋而合，是 2025 年 RL 后训练的事实标准。

五、Anthropic 的 RLAIF：当"人类反馈"变成"宪法反馈"

Anthropic 在 2022 年 12 月的 Constitutional AI 论文（arXiv:2212.08073）中首次提出 RLAIF（RL from AI Feedback）——用 AI 生成的偏好标注替代人类标注。CAI 的流程分两步：先用 AI 自我批评和修订（SL-CAI），再用 AI 偏好标注训练 RM（RLAIF），最后用 RM 驱动 RL。**整个过程只需要"一份宪法"（即自然语言规则列表）**作为人类监督信号。

2024-2026 年，RLAIF 已经从"实验"变成"工程"。Claude 3 系列、Claude 3.5 Sonnet、Claude 3.7 Sonnet 的对齐阶段都重度依赖 RLAIF（据 Anthropic 公开的技术报告）。一个关键的设计哲学差异：OpenAI/Anthropic/DeepSeek 在 RLAIF 上的实现细节差异极大——Anthropic 强调"宪法可解释性"（每一条 AI 反馈都能追溯到一条宪法规则），DeepSeek 强调"可扩展性"（用规则生成器代替标注员），OpenAI 强调"能力扩展"（CoT 加 RLAIF 加 outcome reward 三者叠加）。

六、2026 年的生产栈长什么样

把上面五条线拼起来，今天一个 7B-70B 开源模型的 post-training 生产栈大致是这样的：

SFT 阶段：用 50k-500k 条人工 + 合成数据做监督微调，训练 1-3 个 epoch。Qwen2.5 报告（arXiv:2412.15115）披露他们用了"超过 100 万条 SFT 样本"，是行业里目前已知最大的 SFT 数据集之一。
DPO/SimPO 阶段：用 50k-200k 条偏好对做偏好对齐，1 个 epoch。Llama 3.1 405B 报告披露他们做了 5 轮"拒绝采样 + DPO"的迭代。
RL 阶段：用 GRPO/IPPO/online DPO 在 20k-100k 条可验证 prompt 上做 RL 后训练，可选做 Process Reward 增强。DeepSeek-R1 用了数千 GPU 小时的纯 RL。
安全对齐：用 RLAIF 或规则化 RLHF 做红队对齐，Claude 系列在此阶段最重。

实战上几个 2026 年新趋势值得注意：

"在线 DPO"（online DPO / iterative DPO）正在取代离线 DPO：每训练一轮后用当前模型重新采样偏好对，再训练，避免分布漂移。
**混合奖励（hybrid reward）**成为标配：RM（70%权重）+ 规则奖励（30%权重）混合驱动 RL，兼得主观偏好与可验证正确性。
MoE 模型的后训练更难：Qwen3-235B-A22B（235B 总参/22B 激活）的 post-training 公开报告里特别提到"专家路由在 RL 阶段会失衡"，需要额外的负载均衡 loss。
Agent 场景的后训练几乎都长 GRPO：tool use、code execution、web navigation 这些"长视野任务"的反馈天然就是规则化的（执行成功/失败），GRPO 在 SWE-bench、τ-bench 上已经成为 SOTA 训练范式。

七、还没解决的问题

范式迁移并不是"GRPO 替代 PPO"那么简单。2026 年仍有几个核心开放问题：

奖励黑客在长视野任务上依然严重——模型可能学会"调用工具但忽略返回结果直接编答案"，或者"先假装成功再调用工具修正"。
PRM 在通用任务上还没找到稳健定义——非数学非代码任务的"步骤正确"如何定义，是 2026 年后训练研究最大的开放问题之一。
后训练的可解释性几乎为零——我们能训出 78% MATH 的 PRM，但说不清楚模型在某一步"为什么觉得自己做对了"。
合成数据的边界——当后训练数据 50% 以上来自模型自己采样时，模型崩溃（model collapse）风险在多个论文里被反复讨论但缺乏系统解决方案。

八、写给工程师的实操建议

如果你是 2026 年要把开源模型做对齐的工程师，下面是我会推荐的几条实操经验：

从 SFT 起步，别急着上 RL——SFT 阶段把数据质量、prompt 模板、tokenizer 兼容性这些坑踩完，再上 DPO/GRPO 才有意义。
DPO 是性价比最高的"第一步对齐"——显存只要 SFT 的 1.5 倍（reference model 冻结），训练 1 个 epoch 就能看到效果。
GRPO 上之前先确认任务"可验证"——如果你的任务没有清晰的"对/错"信号（比如开放式写作、UI 设计），GRPO 会快速陷入 reward hacking。
混合奖励是 RL 阶段的最佳实践——70% RM + 30% 规则，让模型同时学到"主观偏好"和"客观正确"。
后训练的数据量天花板远低于预训练——Qwen2.5 用了 18T token 做预训练、1M SFT + 多轮 RL 做后训练；后训练数据量比预训练小 5 个数量级，质量 > 数量。
不要忽视 RLAIF 的工程红利——RLAIF 不是为了省钱，而是为了"可扩展"——它让对齐阶段不卡在人类标注员的吞吐量上。

总结

2026 年的 post-training，已经从 2022 年那个"RLHF 三段式"演化成了一套**算法层（GRPO/DPO/SimPO）+ 奖励层（RM/规则/RLAIF）+ 流程层（在线 DPO/迭代 SFT-RL）**的复合工程体系。GRPO 把 RL 的工程门槛降了一个量级，DPO 把偏好对齐从强化学习拉回了监督学习，RLVR 让"可验证"成为新范式，PRM 在数学/代码上展现了但还没在通用任务上突围，RLAIF 让对齐本身也变得可扩展。

对从业者来说，最重要的事是放弃"RLHF 是终局"的旧观念。今天一个 7B 模型从基座到 production-ready 的对齐流程，SFT + DPO + GRPO + 安全对齐是 2026 年的事实标准四件套，能在 4-8 张 H100 上 2-3 周跑完。剩下的，是数据质量、奖励设计、任务可验证性这三件事的工程深度较量。

参考资料

Ouyang et al. Training language models to follow instructions with human feedback (InstructGPT). arXiv:2203.02155, 2022.
Bai et al. Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073, 2022.
Rafailov et al. Direct Preference Optimization: Your Language Model is Secretly a Reward Model. arXiv:2305.18290, 2023.
Lightman et al. Let's Verify Step by Step (PRM800K). arXiv:2305.20050, 2023.
Shao et al. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models (GRPO 原始论文). arXiv:2402.03300, 2024.
DeepSeek-AI. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948, 2025 (Nature DOI: 10.1038/s41586-025-09422-z).
Dubey et al. The Llama 3 Herd of Models. arXiv:2407.21783, 2024.
Qwen Team. Qwen2.5 Technical Report. arXiv:2412.15115, 2024.
Qwen Team. Qwen3: Think Deeper, Act Faster. https://qwenlm.github.io/blog/qwen3/, 2025-04-29.
OpenAI. OpenAI o1 System Card. arXiv:2412.16720, 2024.
huggingface/trl (GitHub). https://github.com/huggingface/trl — 18.6k stars, 2026-06 拉取.
volcengine/verl (GitHub). https://github.com/volcengine/verl — 21.9k stars, 2026-06 拉取.
OpenRLHF/OpenRLHF (GitHub). https://github.com/OpenRLHF/OpenRLHF — 9.6k stars, 2026-06 拉取.
DeepSeek API Docs: Reasoning Model. https://api-docs.deepseek.com/guides/reasoning_model, 2026-06 抓取.

Post-training 范式 2026：从 SFT/RLHF 到 GRPO/DPO/RLVR 的工程化大爆发

Post-training 范式 2026：从 SFT/RLHF 到 GRPO/DPO/RLVR 的工程化大爆发

一、为什么 post-training 突然变得这么重要

二、GRPO：当"组内相对排名"取代"绝对奖励"

三、DPO 及其家族：把"对齐"从强化学习拉回监督学习

四、RLVR 与 Process Reward：当"奖励"从黑箱变成可验证规则

五、Anthropic 的 RLAIF：当"人类反馈"变成"宪法反馈"

六、2026 年的生产栈长什么样

七、还没解决的问题

八、写给工程师的实操建议

总结

参考资料

相关文章

评论

发表评论