Post-training 范式 2026:从 SFT/RLHF 到 GRPO/DPO/RLVR 的工程化大爆发
约 15 分钟4500 字7 次阅读
Post-training 范式 2026:从 SFT/RLHF 到 GRPO/DPO/RLVR 的工程化大爆发
如果说 2023 年是大模型"预训练"决胜负的一年(GPT-4、Claude 2、Llama 2),2024 年是"长上下文与多模态"的一年(Claude 3.5、Llama 3.1、Qwen2.5),那么 2025-2026 年真正的范式拐点,几乎一致地指向了后训练(post-training)。从 OpenAI o1/o3 到 DeepSeek-R1,从 Qwen3 到 Anthropic Claude 3.7 Sonnet,每一家头部实验室都不再单纯靠"更大、更多 token、更长 context"来推进能力曲线,而是把"对模型最后一公里的微调方法"做成了新的护城河。这篇文章就试图从工程视角,把这一轮 post-training 范式迁移讲清楚:它从哪里来、怎么变成今天的形状、哪些算法已经成为行业默认配置、踩过哪些坑、以及 2026 年我们应该把什么放进生产栈。
一、为什么 post-training 突然变得这么重要
在 2023 年之前,"post-training"基本等同于三件事的串联:SFT(supervised fine-tuning,用人工标注的高质量问答对做监督微调)→ RM(reward model,让人类对模型多个回答打分,训练一个打分模型)→ RLHF(用 PPO 等强化学习算法让语言模型去最大化 RM 的分数)。这条路线由 OpenAI 的 InstructGPT(arXiv:2203.02155,2022 年 3 月)开创,由 Anthropic 的 Constitutional AI(arXiv:2212.08073,2022 年 12 月)补上"用 AI 反馈替代部分人类反馈"的思路,是 2022-2024 年所有对齐工作的主轴。
但这条路线在 2024 年开始撞上三堵墙:
- 人类标注数据的边际收益骤降。SFT 阶段用几万条精心挑选的人工示范就能把基础模型拉到接近 GPT-4 水平(这一点在 Llama 3.1 的 405B 报告 arXiv:2407.21783 中有详细说明),但再往上做,每提升 1% 都需要指数级增长的人工成本。
- RM 训练不稳定。一个 7B 的 reward model 在不同 batch、不同 prompt 上的分数分布方差极大,用它驱动 PPO 训练时经常出现"奖励黑客"——模型学会了骗 RM 而非真正解决问题。
- PPO 的工程复杂度极高。需要同时维护 4 个模型(actor、critic、reference、reward),显存占用是单纯 SFT 的 4 倍以上,Ray/DeepSpeed 集群配置稍有不慎训练就崩。
正是这三点,催生了 2024-2026 年 post-training 的全面重构:用更少的人类标注、更稳定的优化目标、更易工程化的算法,把对齐和能力扩展做成可复现的流水线。
二、GRPO:当"组内相对排名"取代"绝对奖励"
GRPO(Group Relative Policy Optimization)是这一轮范式迁移里最具影响力的一笔。它由 DeepSeek 团队在 2024 年 2 月发布的 DeepSeekMath(arXiv:2402.03300)论文中首次提出,核心思想只有一句话:不再训练一个独立的 critic 网络,而是对同一个 prompt 采样一组 G 个回答,让模型在组内做相对排名比较,用排名差作为 advantage 估计。
公式上的简化是巨大的:PPO 需要 ,其中 是一个独立训练的 value network;GRPO 把 替换成"同一组里所有回答的平均奖励 ",因此省掉了 critic 模型。在 7B-70B 规模上,这意味着训练显存从 4× 降到 3×,训练速度提升 30-50%,并且因为奖励信号直接来自组内相对差,奖励黑客的概率被显著压低。
DeepSeek 在 2025 年 1 月把 GRPO 推向了工业级:DeepSeek-R1(arXiv:2501.12948,后正式发表于 Nature,DOI: 10.1038/s41586-025-09422-z)用纯强化学习(即 Zero RL,没有 SFT 冷启动)就让模型在 MATH、AIME、Codeforces 等可验证任务上涌现出"自我反思、验证、动态策略调整"等高阶推理行为。R1 论文的摘要原话是:"the reasoning abilities of LLMs can be incentivized through pure reinforcement learning, obviating the need for human-labeled reasoning trajectories."
这个工作的真正冲击力不在"R1 跑分有多高",而在它传递出的方法论信号:**"可验证任务"(数学、代码、STEM)**适合用 GRPO 这类基于规则奖励的算法规模化训练,因为它绕开了 RM 的不稳定问题——奖励直接由答案对错、是否通过单测给出。后续 Qwen3(2025 年 4 月 29 日发布,blog: qwenlm.github.io/blog/qwen3/)、Kimi K2、Llama 3.1 的后训练阶段都明确报告使用了 GRPO 或其变体。
截至 2026 年 6 月,GRPO 的工业生态已经相当成熟:huggingface/trl 直接提供 GRPOTrainer 接口(仓库 star 数 18.6k),volcengine/verl(HybridFlow 框架,star 数 21.9k)和 OpenRLHF/OpenRLHF(star 数 9.6k)是国内最常用的两个分布式 RL 后训练框架。这意味着任何 7B+ 的开源模型,今天都可以在 4-8 张 H100 上跑通 GRPO 后训练流水线,这是 2024 年初完全不可想象的工程民主化速度。
三、DPO 及其家族:把"对齐"从强化学习拉回监督学习
GRPO 解决的是"如何让模型在可验证任务上更准",但对"人类主观偏好"(helpful、harmless、aesthetic)这一类没有标准答案的任务,GRPO 就力不从心了。这条线在 2023 年被 DPO(Direct Preference Optimization,arXiv:2305.18290)打开了一个新口子。
DPO 的核心观察是:RLHF 中那个 RM 可以直接被"参考模型 + 当前模型的 log 概率之差"等价表达,因此整个强化学习过程可以被压缩成一个简单的二分类交叉熵损失:
其中 是偏好的回答, 是不偏好的回答, 是参考模型(通常是 SFT 后的模型)。这个损失不需要采样、不需要 RM、不需要 PPO,纯 PyTorch 几十行就能跑起来,在学术圈和工业界同时爆火。
DPO 之后两年(2024-2026),又衍生出了 IPO、SimPO、KTO、ORPO 一大堆"对 DPO 的修补"——它们针对 DPO 的不同失败模式(reward over-optimization、长度偏差、参考模型耦合等)做改进。Kimi K2 团队在 2025 年公开的报告中明确提到 K2 的对齐阶段使用了 SimPO + DPO 的组合,而 Llama 3.1 405B 的官方报告(arXiv:2407.21783)则详细描述了 5 轮"Rejection Sampling + DPO + PPO"的迭代式后训练流程。
工程上的关键经验:DPO 这一族算法在小规模(< 70B)和短上下文(< 8k)上几乎是无脑首选,但一旦模型上到 400B 量级、长上下文到 128k,DPO 的训练稳定性会下降——这是因为"参考模型"和"当前模型"在长上下文中分布差异放大,导致损失曲面变得崎岖。这时候更稳妥的做法是DPO 和 PPO 串联:用 DPO 做粗调,再用 PPO 做精调。
四、RLVR 与 Process Reward:当"奖励"从黑箱变成可验证规则
如果说 GRPO 和 DPO 是 2024 年的"算法层革命",那么 2025 年最深刻的转变发生在奖励信号这一层——也就是"我们到底用什么来给模型打分"。
RLVR(Reinforcement Learning with Verifiable Rewards)是 OpenAI 在 o1 之后广为宣传的一个新术语。o1 System Card(arXiv:2412.16720,2024 年 12 月)首次系统披露 o1 的训练方式:在数学、代码等任务上,奖励完全由规则生成——答案对、单元测试通过、字符串匹配——根本不需要人类打分。OpenAI 没有开源 o1 的训练代码,但 DeepSeek-R1 公开复现并放大了这个范式的影响力。
更进一步的是Process Reward Model(PRM)——给模型的"每一步推理"打分,而不是只给最终结果打分。这个方向最早由 OpenAI 在 2023 年的"Let's Verify Step by Step"(arXiv:2305.20050)中提出,论文同时开源了 PRM800K 数据集(80 万条步骤级人类反馈),在 MATH 数据集的子集上把过程监督模型的解题率推到了 78%。
但 PRM 的工业落地一波三折。DeepSeek-R1 论文明确指出"PRM 在工程上有三大难处":
- 通用任务的"正确步骤"难以定义(不像数学有标准解法);
- PRM 本身需要大量人工标注,规模化困难;
- PRM 容易被"看似合理但错误的中间步骤"骗到(reward hacking 风险)。
因此 R1 选择了"outcome-based GRPO"——只对最终答案打分,让模型自己决定中间路径。这个选择与 OpenAI o1 的"hidden CoT + outcome scoring"路径在工程上不谋而合,是 2025 年 RL 后训练的事实标准。
五、Anthropic 的 RLAIF:当"人类反馈"变成"宪法反馈"
Anthropic 在 2022 年 12 月的 Constitutional AI 论文(arXiv:2212.08073)中首次提出 RLAIF(RL from AI Feedback)——用 AI 生成的偏好标注替代人类标注。CAI 的流程分两步:先用 AI 自我批评和修订(SL-CAI),再用 AI 偏好标注训练 RM(RLAIF),最后用 RM 驱动 RL。**整个过程只需要"一份宪法"(即自然语言规则列表)**作为人类监督信号。
2024-2026 年,RLAIF 已经从"实验"变成"工程"。Claude 3 系列、Claude 3.5 Sonnet、Claude 3.7 Sonnet 的对齐阶段都重度依赖 RLAIF(据 Anthropic 公开的技术报告)。一个关键的设计哲学差异:OpenAI/Anthropic/DeepSeek 在 RLAIF 上的实现细节差异极大——Anthropic 强调"宪法可解释性"(每一条 AI 反馈都能追溯到一条宪法规则),DeepSeek 强调"可扩展性"(用规则生成器代替标注员),OpenAI 强调"能力扩展"(CoT 加 RLAIF 加 outcome reward 三者叠加)。
六、2026 年的生产栈长什么样
把上面五条线拼起来,今天一个 7B-70B 开源模型的 post-training 生产栈大致是这样的:
- SFT 阶段:用 50k-500k 条人工 + 合成数据做监督微调,训练 1-3 个 epoch。Qwen2.5 报告(arXiv:2412.15115)披露他们用了"超过 100 万条 SFT 样本",是行业里目前已知最大的 SFT 数据集之一。
- DPO/SimPO 阶段:用 50k-200k 条偏好对做偏好对齐,1 个 epoch。Llama 3.1 405B 报告披露他们做了 5 轮"拒绝采样 + DPO"的迭代。
- RL 阶段:用 GRPO/IPPO/online DPO 在 20k-100k 条可验证 prompt 上做 RL 后训练,可选做 Process Reward 增强。DeepSeek-R1 用了数千 GPU 小时的纯 RL。
- 安全对齐:用 RLAIF 或规则化 RLHF 做红队对齐,Claude 系列在此阶段最重。
实战上几个 2026 年新趋势值得注意:
- "在线 DPO"(online DPO / iterative DPO)正在取代离线 DPO:每训练一轮后用当前模型重新采样偏好对,再训练,避免分布漂移。
- **混合奖励(hybrid reward)**成为标配:RM(70%权重)+ 规则奖励(30%权重)混合驱动 RL,兼得主观偏好与可验证正确性。
- MoE 模型的后训练更难:Qwen3-235B-A22B(235B 总参/22B 激活)的 post-training 公开报告里特别提到"专家路由在 RL 阶段会失衡",需要额外的负载均衡 loss。
- Agent 场景的后训练几乎都长 GRPO:tool use、code execution、web navigation 这些"长视野任务"的反馈天然就是规则化的(执行成功/失败),GRPO 在 SWE-bench、τ-bench 上已经成为 SOTA 训练范式。
七、还没解决的问题
范式迁移并不是"GRPO 替代 PPO"那么简单。2026 年仍有几个核心开放问题:
- 奖励黑客在长视野任务上依然严重——模型可能学会"调用工具但忽略返回结果直接编答案",或者"先假装成功再调用工具修正"。
- PRM 在通用任务上还没找到稳健定义——非数学非代码任务的"步骤正确"如何定义,是 2026 年后训练研究最大的开放问题之一。
- 后训练的可解释性几乎为零——我们能训出 78% MATH 的 PRM,但说不清楚模型在某一步"为什么觉得自己做对了"。
- 合成数据的边界——当后训练数据 50% 以上来自模型自己采样时,模型崩溃(model collapse)风险在多个论文里被反复讨论但缺乏系统解决方案。
八、写给工程师的实操建议
如果你是 2026 年要把开源模型做对齐的工程师,下面是我会推荐的几条实操经验:
- 从 SFT 起步,别急着上 RL——SFT 阶段把数据质量、prompt 模板、tokenizer 兼容性这些坑踩完,再上 DPO/GRPO 才有意义。
- DPO 是性价比最高的"第一步对齐"——显存只要 SFT 的 1.5 倍(reference model 冻结),训练 1 个 epoch 就能看到效果。
- GRPO 上之前先确认任务"可验证"——如果你的任务没有清晰的"对/错"信号(比如开放式写作、UI 设计),GRPO 会快速陷入 reward hacking。
- 混合奖励是 RL 阶段的最佳实践——70% RM + 30% 规则,让模型同时学到"主观偏好"和"客观正确"。
- 后训练的数据量天花板远低于预训练——Qwen2.5 用了 18T token 做预训练、1M SFT + 多轮 RL 做后训练;后训练数据量比预训练小 5 个数量级,质量 > 数量。
- 不要忽视 RLAIF 的工程红利——RLAIF 不是为了省钱,而是为了"可扩展"——它让对齐阶段不卡在人类标注员的吞吐量上。
总结
2026 年的 post-training,已经从 2022 年那个"RLHF 三段式"演化成了一套**算法层(GRPO/DPO/SimPO)+ 奖励层(RM/规则/RLAIF)+ 流程层(在线 DPO/迭代 SFT-RL)**的复合工程体系。GRPO 把 RL 的工程门槛降了一个量级,DPO 把偏好对齐从强化学习拉回了监督学习,RLVR 让"可验证"成为新范式,PRM 在数学/代码上展现了但还没在通用任务上突围,RLAIF 让对齐本身也变得可扩展。
对从业者来说,最重要的事是放弃"RLHF 是终局"的旧观念。今天一个 7B 模型从基座到 production-ready 的对齐流程,SFT + DPO + GRPO + 安全对齐是 2026 年的事实标准四件套,能在 4-8 张 H100 上 2-3 周跑完。剩下的,是数据质量、奖励设计、任务可验证性这三件事的工程深度较量。
参考资料
- Ouyang et al. Training language models to follow instructions with human feedback (InstructGPT). arXiv:2203.02155, 2022.
- Bai et al. Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073, 2022.
- Rafailov et al. Direct Preference Optimization: Your Language Model is Secretly a Reward Model. arXiv:2305.18290, 2023.
- Lightman et al. Let's Verify Step by Step (PRM800K). arXiv:2305.20050, 2023.
- Shao et al. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models (GRPO 原始论文). arXiv:2402.03300, 2024.
- DeepSeek-AI. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948, 2025 (Nature DOI: 10.1038/s41586-025-09422-z).
- Dubey et al. The Llama 3 Herd of Models. arXiv:2407.21783, 2024.
- Qwen Team. Qwen2.5 Technical Report. arXiv:2412.15115, 2024.
- Qwen Team. Qwen3: Think Deeper, Act Faster. https://qwenlm.github.io/blog/qwen3/, 2025-04-29.
- OpenAI. OpenAI o1 System Card. arXiv:2412.16720, 2024.
- huggingface/trl (GitHub). https://github.com/huggingface/trl — 18.6k stars, 2026-06 拉取.
- volcengine/verl (GitHub). https://github.com/volcengine/verl — 21.9k stars, 2026-06 拉取.
- OpenRLHF/OpenRLHF (GitHub). https://github.com/OpenRLHF/OpenRLHF — 9.6k stars, 2026-06 拉取.
- DeepSeek API Docs: Reasoning Model. https://api-docs.deepseek.com/guides/reasoning_model, 2026-06 抓取.