博客
文章系列日历
归档关于搜索

鄂ICP备19019526号

© 2026 博客

  1. 文章
  2. MoE 架构 2026:从稀疏门控到 DeepSeek-V3 与 Qwen3 的工程化集大成

MoE 架构 2026:从稀疏门控到 DeepSeek-V3 与 Qwen3 的工程化集大成

2026年6月14日·约 30 分钟·8899 字·1 次阅读
大模型研究
MoE 架构 2026:从稀疏门控到 DeepSeek-V3 与 Qwen3 的工程化集大成

目录

  • 导言:当 671B 参数的模型只激活 37B
  • 一、从稠密到稀疏:MoE 的核心直觉
  • 1.1 Sparsely-Gated MoE 层(Shazeer et al., 2017)
  • 1.2 GShard 与万亿参数时代
  • 1.3 Switch Transformer 的简化美学
  • 二、DeepSeek 系列:MoE 工程化的集大成者
  • 2.1 DeepSeek-MoE(2024-01):细粒度专家 + 共享专家隔离
  • 2.2 DeepSeek-V2 / V3:MLA + 无辅助损失负载均衡
  • 2.3 DeepSeek-V3 的真实表现
  • 三、2025 年的新格局:Qwen3-MoE 与 Hybrid Thinking
  • 3.1 Qwen3-MoE:把 MoE 推到「30B 激活」
  • 3.2 Hybrid Thinking:MoE + 推理时计算的耦合
  • 四、MoE 落地的三个核心工程权衡
  • 4.1 激活比:总参数、激活参数、推理成本的三角约束
  • 4.2 推理时显存墙:MoE 不"省显存"
  • 4.3 训练稳定性:FP8 + 无辅助损失的双重保险
  • 五、产业判断:MoE 之后,LLM 架构向哪里去?
  • 5.1 "稠密大模型" 时代的终结
  • 5.2 三条潜在的下一代路线
  • 5.3 一个务实的选型建议
  • 总结
  • 参考资料

导言:当 671B 参数的模型只激活 37B

2026 年初的 LLM 圈最吊诡的一个事实是:一个总参数 671B 的旗舰模型,每个 token 实际计算量只相当于 37B 的稠密模型——效率比传统稠密 Transformer 提升了一个量级。这背后的核心架构就是 Mixture-of-Experts (MoE)。DeepSeek-V3、Qwen3-235B、Mixtral、Llama 4 这些 2025–2026 年最具影响力的开源模型几乎清一色采用了 MoE 路线。如果把 2023 年看成"稠密模型用更多算力换更强能力"的最后一年,那么 2024 年开始、以 DeepSeek-V2 / Mixtral 为分水岭,MoE 就是 LLM 规模化扩展的默认范式。

然而 MoE 并不是新概念。GShard (Lepikhin et al., 2020) 早在五年前就把 MoE 推到了 600B 规模;Shazeer 等人在 2017 年的 "Outrageously Large Neural Networks" 就提出了稀疏门控 MoE 层。但 MoE 一直未能成为主流,原因是工程上一系列难以解决的痛点:负载不均衡导致专家坍缩、通信开销大、训练不稳定、推理时显存占用随总参数线性增长。直到 2024–2026 年,以 DeepSeek 的"无辅助损失负载均衡 + 共享专家隔离"为代表的工程创新,加上 FP8 训练、跨节点 all-to-all 通信优化等系统级突破,MoE 才真正进入大规模生产可用阶段。

本文将围绕 MoE 架构的演化主线展开:从 Sparsely-Gated MoE (2017) → GShard (2020) → Switch Transformer (2021) → Mixtral 8x7B (2023) → DeepSeek-MoE / DeepSeek-V2 (2024) → DeepSeek-V3 (2024) → Qwen3-MoE (2025),梳理 5 个关键工程突破、3 类工程权衡、2 个值得关注的产业判断。无论你是 LLM 训练基础设施工程师、应用层产品经理,还是想理解"为什么 GPT-4 一定是 MoE"的技术决策者,本文都会给你一张可参考的认知地图。


一、从稠密到稀疏:MoE 的核心直觉

稠密 Transformer 的每一层对每个 token 都会激活全部参数。模型规模越大,单 token 的 FLOPs 线性增长,这构成了"扩展定律 (Scaling Laws)"的物理成本。MoE 的核心思想是把 Transformer 的 FFN(前馈网络)替换成 N 个并行的"专家"子网络(experts),每个 token 由一个路由器 (router) 决定激活其中 K 个(K 通常远小于 N),其他专家完全跳过。

直觉上,模型参数总量大幅增加(总容量 = N × 单专家参数),但单 token 计算量基本不变(K × 单专家参数),实现了 "参数扩展"与"计算扩展"解耦。这种"条件计算 (Conditional Computation)" 思路正是 1990 年代神经网络的旧梦,但在 LLM 时代才真正落地。

1.1 Sparsely-Gated MoE 层(Shazeer et al., 2017)

arXiv:1701.06538 提出在 LSTM 层之间插入稀疏门控 MoE 层,门控网络对 N=1000+ 个专家计算 softmax,取 top-K 个。这种"top-K 门控"成为后续所有 MoE 模型的模板。但论文同时指出三个根本挑战:

  1. 专家负载不均衡:路由器倾向于让少数专家获得大部分 token,剩余专家"饿死"。
  2. 通信瓶颈:在分布式训练中,专家分散在不同设备上,token 需要 all-to-all 路由。
  3. 训练不稳定:门控的离散选择导致梯度稀疏,回传路径复杂。

截至 2026-06,未有公开材料显示 Shazeer 等人 2017 年的原始 MoE 层在 1T+ 参数规模上稳定训练成功——主要是工程难题(路由抖动、通信墙)尚未解决。

1.2 GShard 与万亿参数时代

arXiv:2006.16668 (Lepikhin et al., 2020, Google) 首次把 MoE 推到 600B 规模,训练了一个 2048 专家的 Transformer-MoE 翻译模型。GShard 提出了几项关键工程创新:

  • Expert Parallelism (EP):把专家切片到不同设备,token 通过 all-to-all 通信路由到对应设备。
  • Capacity Factor (CF):为每个专家设置容量上限,强制拒绝超载 token,避免单点过载。
  • Auxiliary Load Balancing Loss:在主损失函数上加一项"专家分配均匀度"的辅助损失,惩罚不均衡。

GShard 的副产品是 GSPMD 编译器(后整合进 JAX),它让大规模 MoE 训练首次具备了"自动并行化"能力。今天你在 DeepSeek-V3 技术报告里看到的 EP+TP+PP 编排思路,本质上就是 GShard 范式的延续。

1.3 Switch Transformer 的简化美学

arXiv:2101.03961 (Fedus et al., 2021, Google) 做了一个极简的工程优化:把 top-2 门控改成 top-1 门控 (Switch),相当于"每次只激活一个专家"。这种简化有三个好处:

  • 路由决策更稳定(从二元比较变成一元选择)
  • 计算图更简单,编译器更容易优化
  • 通信量减半

Switch Transformer 在 T5 基础上做到了 1.6T 参数规模,并在 7B 等小规模上验证了"稀疏模型可以匹配甚至超过稠密模型"的工程假设。但 Switch 也有副作用:路由粒度变粗,专家利用率波动更大,需要更激进的辅助损失来平衡。


二、DeepSeek 系列:MoE 工程化的集大成者

如果说 2017–2021 年是 MoE 概念的"学术播种期",2023 年的 Mixtral 是"开源破冰期",那么 2024 年 DeepSeek 系列(V1 → V2 → V3)就是把 MoE 工程化做到极致的"产业化突破期"。三篇技术报告(DeepSeekMoE、DeepSeek-V2、DeepSeek-V3)实际上构成了一个清晰的演化路线图。

2.1 DeepSeek-MoE(2024-01):细粒度专家 + 共享专家隔离

arXiv:2401.06066 是 DeepSeek 在 MoE 上的奠基性工作。两个关键设计:

① 细粒度专家 (Fine-grained Experts):传统 Mixtral 用 8 个大专家,每个专家 FFN 中间维度是 14336。DeepSeek-MoE 改成 160 个小专家,每个专家中间维度 256——总参数相当,但路由粒度细 20 倍。这带来两个收益:

  • 路由决策更精确(top-8 选 8 比 top-2 选 1 信息熵更高)
  • 专家更"专精"(小专家被迫只学一类知识,反而更纯粹)

② 共享专家隔离 (Shared Experts):在 160 个路由专家之外,再额外设置 2 个共享专家——所有 token 强制经过,不参与路由。共享专家负责学习"通用知识"(语法、常用词),路由专家负责"专家化知识"(特定领域、特定句式)。这种**"通用+专精"二分层**大幅提升了路由稳定性,论文报告在相同激活参数下,DeepSeek-MoE 16B 比 LLaMA2 7B 和 Mixtral 8x7B 都有明显优势。

2.2 DeepSeek-V2 / V3:MLA + 无辅助损失负载均衡

DeepSeek-V2 (236B 总参 / 21B 激活) 引入了 Multi-head Latent Attention (MLA)——一种把 KV 缓存压缩到低秩潜变量的注意力机制,KV 缓存只需存 1/8 的数据。MLA 与 MoE 是两条独立但互补的优化线:MLA 省的是推理时的显存带宽,MoE 省的是训练和推理时的算力。

DeepSeek-V3 (671B 总参 / 37B 激活) 在 V2 基础上又有三项突破:

  1. 无辅助损失负载均衡 (Auxiliary-Loss-Free Load Balancing):传统 MoE 必须额外加一项辅助损失来强制专家均匀分配,但这会伤害主损失。DeepSeek-V3 改用 动态偏置项 (dynamic bias):监控每个专家的负载,给负载低的专家加正向偏置、负载高的加负向偏置,让路由器的 logits 自然向"被低估"的专家倾斜。完全不用辅助损失,主损失反而更优。这是一个反直觉但优雅的设计。

  2. Multi-Token Prediction (MTP):训练时让模型一次预测未来 2 个 token(用独立 MTP 模块),相当于"训练时多看 1 步棋"。MTP 不仅加速训练收敛,部署时还能用作 speculative decoding 的草稿模型——推理时用一个共享参数的 MTP 模块并行猜 N 个 token,主模型一次验证 N 个,吞吐量提升 1.8–2.0 倍。

  3. FP8 混合精度训练:DeepSeek-V3 第一次在大规模(>1T 训练 token)上验证了 FP8 训练的可行性和有效性。FP8 把每个参数的存储和计算位宽从 16 位降到 8 位,训练吞吐量提升约 1.5 倍、显存减半。代价是数值精度变差,需要仔细设计 per-tensor 缩放策略。

V3 的训练效率是惊人的:14.8T token 预训练仅用 2.664M H800 GPU hours——按公开 H800 云租价约 2 美元/小时折算,总训练成本约 530 万美元。作为对比,GPT-4 训练成本据估在 1 亿美元量级(无官方数字),V3 用了不到 1% 的成本做到了"可对比 closed-source 旗舰"的水平。

2.3 DeepSeek-V3 的真实表现

根据 Hugging Face 官方模型卡(数据来自 DeepSeek-V3 技术报告,2024-12 发布,2025 年公开评测更新),V3 base 模型在标准基准上 全面超越 LLaMA-3.1 405B、Qwen2.5 72B 等同体量稠密模型:

基准DeepSeek-V3 (37B 激活)LLaMA-3.1 405B (稠密)Qwen2.5 72B (稠密)
MMLU87.184.485.0
MMLU-Pro64.452.858.3
HumanEval (Pass@1)65.254.953.0
MATH (EM)61.649.054.4
CMath (EM)90.777.384.5

在 chat 版本上,V3 还在 MMLU (88.5 vs GPT-4o 87.2)、MATH-500 (90.2 vs 74.6)、AIME 2024 (39.2 vs 9.3) 等多项指标上反超了 GPT-4o 0513。

GitHub 仓库 deepseek-ai/DeepSeek-V3 截至 2026-06-13 已获得 103,748 stars、16,734 forks,是 2025–2026 年全球最热门的开源 LLM 仓库之一。


三、2025 年的新格局:Qwen3-MoE 与 Hybrid Thinking

3.1 Qwen3-MoE:把 MoE 推到「30B 激活」

阿里 Qwen 团队在 2025-04-29 发布的 Qwen3 系列(Qwen 团队, 2025-04),其中两个 MoE 模型延续了 DeepSeek 的"细粒度 + 共享" 思路但做了一些工程变体:

  • Qwen3-235B-A22B:235B 总参、22B 激活、128 个路由专家、128K 上下文。官方说法是"在 coding、math、通用能力上比肩 DeepSeek-R1、o1、o3-mini、Gemini-2.5-Pro"。
  • Qwen3-30B-A3B:30B 总参、仅 3B 激活——这是 MoE 第一次把"激活比"压到 10% 以下,却能"outcompete QwQ-32B with 10 times the activated parameters"(官方原文,2025-04)。3B 激活意味着单 token 计算量相当于一个 3B 稠密模型,但知识容量却是 30B。

Qwen3 的设计哲学与 DeepSeek-V3 略有不同:V3 走"超大模型 + FP8 + 极致工程优化"路线,Qwen3 走"中小激活 + 通用性 + 部署友好"路线。3B 激活的 Qwen3-30B-A3B 甚至可以跑在 24GB 显存的消费级 GPU 上(量化后),这为 MoE 进入"端侧 + 个人开发机"打开了一扇门。

3.2 Hybrid Thinking:MoE + 推理时计算的耦合

Qwen3 另一项重要创新是 "思考模式" 与 "非思考模式" 混合。模型在一次生成中可以根据 prompt 中的 /think 或 /no_think 标签,动态决定是否展开长链推理。这本质上是把"推理时计算 (Test-Time Compute)" 的能力(详见 2026-06-13 我们发布的《推理时计算的范式革命》一文)内化进了 MoE 模型本身——同一组权重,通过路由器偏置的微调,能在"快思考"和"慢思考"之间切换。

这种"单一 MoE 模型 = 双模推理引擎"的设计,对部署方非常友好:不再需要为简单任务加载一个 7B 模型、为复杂任务加载一个 70B 模型——一个 30B-A3B 的 Qwen3 就能覆盖两种场景。Qwen 团队的官方文档显示(qwenlm.github.io/blog/qwen3/,2025-04),在 /think 模式下性能随"思考预算"线性提升,且非常平滑。


四、MoE 落地的三个核心工程权衡

4.1 激活比:总参数、激活参数、推理成本的三角约束

MoE 模型选型时必须同时考虑三个变量:

  • 总参数(决定显存上限、权重加载成本)
  • 激活参数(决定单 token FLOPs、推理吞吐量)
  • 总参数/激活参数比(决定"专家冗余度"和路由难度)

DeepSeek-V3 选择了 671B/37B ≈ 18× 的高冗余路线,目的是在 FP8 + 共享专家 + 无辅助损失框架下最大化模型容量。Qwen3-30B-A3B 选择了 30B/3B = 10× 的中等冗余路线,目标是降低部署门槛。Mixtral 8x7B 是 47B/13B ≈ 3.6× 的低冗余,参数利用率最密集但路由粒度最粗。

经验法则:激活比 10–20× 是当前工程甜点——既能保持路由稳定,又能保证单 token 成本可控。低于 5× 时 MoE 优势不够明显,高于 30× 时路由难度急剧上升,需要更复杂的负载均衡策略。

4.2 推理时显存墙:MoE 不"省显存"

MoE 经常被误解为"参数多用得少所以省成本"。真实情况是:MoE 省的是算力(FLOPs),不省显存。 推理时所有专家的权重必须常驻 GPU 显存(因为路由器可能激活任意一个专家),所以 671B 的 DeepSeek-V3 仍然需要 671B × 2 字节(FP16)= 1.3TB 显存才能跑完整模型。

这催生了两种工程解决方案:

  1. 专家卸载 (Expert Offloading):把不活跃专家放在 CPU/NVMe,需要时再换入 GPU。SGLang、vLLM、LMDeploy 都支持,但每次切换有 ms 级延迟。
  2. 专家量化 + 共享专家常驻:DeepSeek 官方推荐把 671B 量化到 FP8(约 670GB),配合 H800/H100 的高速 NVLink 互联可单机推理。

普通开发者想本地跑 671B 的 V3,至少需要 8×H100 80GB(约 640GB 显存+共享内存交换)才能勉强推理。如果你需要本地推理,应优先选 Qwen3-30B-A3B 这种 30B 量级 MoE。

4.3 训练稳定性:FP8 + 无辅助损失的双重保险

训练 MoE 的另一大痛点是"loss spike"——训练中突然出现的损失峰值可能摧毁整个 checkpoint。Switch Transformer 时代需要复杂的回滚机制来恢复。

DeepSeek-V3 报告(2024-12)宣称 "整个训练过程没有遇到任何不可恢复的 loss spike",主要靠三个机制:

  • 无辅助损失负载均衡(避免辅助损失与主损失"打架")
  • FP8 的精细缩放(避免数值溢出)
  • 跨节点 EP+TP 通信优化(让 all-to-all 几乎与计算完全重叠,避免路由成为瓶颈)

这一稳定性突破意味着 MoE 不再是"工程高风险赌注",而是"可复现、可生产"的基础设施。这是 2025 年 MoE 成为开源默认选项的关键拐点。


五、产业判断:MoE 之后,LLM 架构向哪里去?

5.1 "稠密大模型" 时代的终结

2024 年以前,"做大模型 = 做大稠密模型"是默认路径。GPT-4 时代(2023)大家猜测 OpenAI 内部用过 MoE,但稠密路线仍占主流(Mistral 7B、Llama 2 7B/13B/70B、Qwen 1.5 等都是稠密)。2024 年 Mixtral 8x7B 破冰,2025 年 DeepSeek-V3 / Qwen3-MoE / Llama 4 / Mistral Large 24B 等几乎所有旗舰开源模型都转向 MoE。稠密路线的最高水位线可能是 LLaMA-3.1 405B(Meta, 2024)和 Qwen2.5 72B——之后所有更大体量的旗舰都默认是 MoE。

5.2 三条潜在的下一代路线

业界正在探索的"MoE 之后"路线有三条:

① MoE + 状态空间 (MoE-Mamba):用 Mamba/SSM 替代注意力,再用 MoE 替换 SSM 的 FFN。代表工作是 Jamba (AI21, 2024),Jamba 1.5 Large (398B 总参 / 94B 激活) 展示了"注意力 + SSM + MoE" 三混合架构的可行性。优势:长上下文推理成本接近 O(n) 而非 O(n²)。挑战:Mamba 与注意力的"权重融合"目前还不够成熟。

② 稀疏激活的稠密模型 (MoLE):训练一个稠密模型,但推理时用 early-exit 或条件路径跳过某些层。代表工作是 CALM (Google, 2022) 和近期一些"层跳跃"研究。优势:保留稠密模型的工具链。挑战:训练目标与推理目标不一致,性能损失难以控制。

③ 扩散语言模型 (Diffusion LLM):详见 2026-06-13 我们发布的《Diffusion LLM:当文本生成从打字机变成并行编辑器》一文。Diffusion LLM 本质上是非自回归生成,单次前向可并行生成 N 个 token,与 MoE 关注的"扩展算力"问题是正交方向。未来可能两者融合:MoE 提供参数容量,Diffusion 提供并行解码。

5.3 一个务实的选型建议

对 2026 年中期的应用开发者,MoE 模型选型的实操建议:

  1. 端侧/低延迟场景 → Qwen3-30B-A3B(30B/3B)、Phi-3.5-MoE (42B/6.6B)、Mixtral 8x22B (141B/39B),优先 4-bit 量化。
  2. 服务器高吞吐场景 → DeepSeek-V3 (671B/37B)、Qwen3-235B-A22B (235B/22B),配合 SGLang/vLLM 多卡推理。
  3. 极致性能/不差钱场景 → 直接调用 OpenAI o1、Anthropic Claude 4、Gemini 2.5 Pro 等闭源旗舰(推测全部 MoE),不要试图自建。
  4. 企业级私有部署 → 优先 7B–22B 激活的 MoE(如 Qwen3-30B-A3B、Mixtral 8x22B),因为它们能在单台 4×H100 服务器上 FP16 推理,且性能接近 GPT-4 水平。

总结

MoE 从 2017 年的学术概念到 2026 年的生产默认,经历了近十年的工程积累。DeepSeek 系列(V1 → V2 → V3)和 Qwen3-MoE 是这一演化的两个里程碑:前者把 MoE 推到了 671B/37B 激活的超大规模并用 FP8 + 无辅助损失解决了训练稳定性,后者用 30B/3B 激活的轻量 MoE 打开了部署端的可能性。未来 1–2 年,MoE + 推理时计算 + Diffusion 解码三者的耦合可能是 LLM 架构下一波演进的方向。

对从业者而言,理解 MoE 的工程权衡(激活比、显存墙、负载均衡)比理解其数学原理更实际。当你看到一个 MoE 模型的"激活参数"数字时,请记住:这不是"模型实际有多大",而是"模型在跑 1 个 token 时实际算了多少算力"——这两个数字的差,就是 MoE 留给你的优化空间。


参考资料

  1. Shazeer, N., et al. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. arXiv:1701.06538. https://arxiv.org/abs/1701.06538
  2. Lepikhin, D., et al. (2020). GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. arXiv:2006.16668. https://arxiv.org/abs/2006.16668
  3. Fedus, W., et al. (2022). Switch Transformer: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961. https://arxiv.org/abs/2101.03961
  4. Dai, D., et al. (2024). DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models. arXiv:2401.06066. https://arxiv.org/abs/2401.06066
  5. DeepSeek-AI (2024). DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model. arXiv:2405.04434. https://arxiv.org/abs/2405.04434
  6. DeepSeek-AI (2024). DeepSeek-V3 Technical Report. arXiv:2412.19437. https://arxiv.org/abs/2412.19437
  7. Qwen Team (2025). Qwen3: Think Deeper, Act Faster. https://qwenlm.github.io/blog/qwen3/
  8. Mistral AI (2023). Mixtral of Experts: The Sparse Mixture-of-Experts Model. https://mistral.ai/news/mixtral-of-experts/
  9. Hugging Face (2024). DeepSeek-V3 Model Card. https://huggingface.co/deepseek-ai/DeepSeek-V3
  10. GitHub (2026-06-13). deepseek-ai/DeepSeek-V3 Repository. https://github.com/deepseek-ai/DeepSeek-V3 (103,748 stars as of 2026-06-13)

相关文章

  • 当基准说“你对了”但产品说“还不行”:2026 年 AI 能力度量的真实地基6月14日
  • Diffusion LLM:当文本生成从打字机变成并行编辑器6月13日
  • LLM 评估的危机与重建:从饱和基准到过程性评估的范式转移6月12日

评论

加载评论中…

发表评论

返回文章列表