MoE 架构 2026：从稀疏门控到 DeepSeek-V3 与 Qwen3 的工程化集大成

导言：当 671B 参数的模型只激活 37B

2026 年初的 LLM 圈最吊诡的一个事实是：一个总参数 671B 的旗舰模型，每个 token 实际计算量只相当于 37B 的稠密模型——效率比传统稠密 Transformer 提升了一个量级。这背后的核心架构就是 Mixture-of-Experts (MoE)。DeepSeek-V3、Qwen3-235B、Mixtral、Llama 4 这些 2025–2026 年最具影响力的开源模型几乎清一色采用了 MoE 路线。如果把 2023 年看成"稠密模型用更多算力换更强能力"的最后一年，那么 2024 年开始、以 DeepSeek-V2 / Mixtral 为分水岭，MoE 就是 LLM 规模化扩展的默认范式。

然而 MoE 并不是新概念。GShard (Lepikhin et al., 2020) 早在五年前就把 MoE 推到了 600B 规模；Shazeer 等人在 2017 年的 "Outrageously Large Neural Networks" 就提出了稀疏门控 MoE 层。但 MoE 一直未能成为主流，原因是工程上一系列难以解决的痛点：负载不均衡导致专家坍缩、通信开销大、训练不稳定、推理时显存占用随总参数线性增长。直到 2024–2026 年，以 DeepSeek 的"无辅助损失负载均衡 + 共享专家隔离"为代表的工程创新，加上 FP8 训练、跨节点 all-to-all 通信优化等系统级突破，MoE 才真正进入大规模生产可用阶段。

本文将围绕 MoE 架构的演化主线展开：从 Sparsely-Gated MoE (2017) → GShard (2020) → Switch Transformer (2021) → Mixtral 8x7B (2023) → DeepSeek-MoE / DeepSeek-V2 (2024) → DeepSeek-V3 (2024) → Qwen3-MoE (2025)，梳理 5 个关键工程突破、3 类工程权衡、2 个值得关注的产业判断。无论你是 LLM 训练基础设施工程师、应用层产品经理，还是想理解"为什么 GPT-4 一定是 MoE"的技术决策者，本文都会给你一张可参考的认知地图。

一、从稠密到稀疏：MoE 的核心直觉

稠密 Transformer 的每一层对每个 token 都会激活全部参数。模型规模越大，单 token 的 FLOPs 线性增长，这构成了"扩展定律 (Scaling Laws)"的物理成本。MoE 的核心思想是把 Transformer 的 FFN（前馈网络）替换成 N 个并行的"专家"子网络（experts），每个 token 由一个路由器 (router) 决定激活其中 K 个（K 通常远小于 N），其他专家完全跳过。

直觉上，模型参数总量大幅增加（总容量 = N × 单专家参数），但单 token 计算量基本不变（K × 单专家参数），实现了 "参数扩展"与"计算扩展"解耦。这种"条件计算 (Conditional Computation)" 思路正是 1990 年代神经网络的旧梦，但在 LLM 时代才真正落地。

1.1 Sparsely-Gated MoE 层（Shazeer et al., 2017）

arXiv:1701.06538 提出在 LSTM 层之间插入稀疏门控 MoE 层，门控网络对 N=1000+ 个专家计算 softmax，取 top-K 个。这种"top-K 门控"成为后续所有 MoE 模型的模板。但论文同时指出三个根本挑战：

专家负载不均衡：路由器倾向于让少数专家获得大部分 token，剩余专家"饿死"。
通信瓶颈：在分布式训练中，专家分散在不同设备上，token 需要 all-to-all 路由。
训练不稳定：门控的离散选择导致梯度稀疏，回传路径复杂。

截至 2026-06，未有公开材料显示 Shazeer 等人 2017 年的原始 MoE 层在 1T+ 参数规模上稳定训练成功——主要是工程难题（路由抖动、通信墙）尚未解决。

1.2 GShard 与万亿参数时代

arXiv:2006.16668 (Lepikhin et al., 2020, Google) 首次把 MoE 推到 600B 规模，训练了一个 2048 专家的 Transformer-MoE 翻译模型。GShard 提出了几项关键工程创新：

Expert Parallelism (EP)：把专家切片到不同设备，token 通过 all-to-all 通信路由到对应设备。
Capacity Factor (CF)：为每个专家设置容量上限，强制拒绝超载 token，避免单点过载。
Auxiliary Load Balancing Loss：在主损失函数上加一项"专家分配均匀度"的辅助损失，惩罚不均衡。

GShard 的副产品是 GSPMD 编译器（后整合进 JAX），它让大规模 MoE 训练首次具备了"自动并行化"能力。今天你在 DeepSeek-V3 技术报告里看到的 EP+TP+PP 编排思路，本质上就是 GShard 范式的延续。

1.3 Switch Transformer 的简化美学

arXiv:2101.03961 (Fedus et al., 2021, Google) 做了一个极简的工程优化：把 top-2 门控改成 top-1 门控 (Switch)，相当于"每次只激活一个专家"。这种简化有三个好处：

路由决策更稳定（从二元比较变成一元选择）
计算图更简单，编译器更容易优化
通信量减半

Switch Transformer 在 T5 基础上做到了 1.6T 参数规模，并在 7B 等小规模上验证了"稀疏模型可以匹配甚至超过稠密模型"的工程假设。但 Switch 也有副作用：路由粒度变粗，专家利用率波动更大，需要更激进的辅助损失来平衡。

二、DeepSeek 系列：MoE 工程化的集大成者

如果说 2017–2021 年是 MoE 概念的"学术播种期"，2023 年的 Mixtral 是"开源破冰期"，那么 2024 年 DeepSeek 系列（V1 → V2 → V3）就是把 MoE 工程化做到极致的"产业化突破期"。三篇技术报告（DeepSeekMoE、DeepSeek-V2、DeepSeek-V3）实际上构成了一个清晰的演化路线图。

2.1 DeepSeek-MoE（2024-01）：细粒度专家 + 共享专家隔离

arXiv:2401.06066 是 DeepSeek 在 MoE 上的奠基性工作。两个关键设计：

① 细粒度专家 (Fine-grained Experts)：传统 Mixtral 用 8 个大专家，每个专家 FFN 中间维度是 14336。DeepSeek-MoE 改成 160 个小专家，每个专家中间维度 256——总参数相当，但路由粒度细 20 倍。这带来两个收益：

路由决策更精确（top-8 选 8 比 top-2 选 1 信息熵更高）
专家更"专精"（小专家被迫只学一类知识，反而更纯粹）

② 共享专家隔离 (Shared Experts)：在 160 个路由专家之外，再额外设置 2 个共享专家——所有 token 强制经过，不参与路由。共享专家负责学习"通用知识"（语法、常用词），路由专家负责"专家化知识"（特定领域、特定句式）。这种**"通用+专精"二分层**大幅提升了路由稳定性，论文报告在相同激活参数下，DeepSeek-MoE 16B 比 LLaMA2 7B 和 Mixtral 8x7B 都有明显优势。

2.2 DeepSeek-V2 / V3：MLA + 无辅助损失负载均衡

DeepSeek-V2 (236B 总参 / 21B 激活) 引入了 Multi-head Latent Attention (MLA)——一种把 KV 缓存压缩到低秩潜变量的注意力机制，KV 缓存只需存 1/8 的数据。MLA 与 MoE 是两条独立但互补的优化线：MLA 省的是推理时的显存带宽，MoE 省的是训练和推理时的算力。

DeepSeek-V3 (671B 总参 / 37B 激活) 在 V2 基础上又有三项突破：

无辅助损失负载均衡 (Auxiliary-Loss-Free Load Balancing)：传统 MoE 必须额外加一项辅助损失来强制专家均匀分配，但这会伤害主损失。DeepSeek-V3 改用 动态偏置项 (dynamic bias)：监控每个专家的负载，给负载低的专家加正向偏置、负载高的加负向偏置，让路由器的 logits 自然向"被低估"的专家倾斜。完全不用辅助损失，主损失反而更优。这是一个反直觉但优雅的设计。
Multi-Token Prediction (MTP)：训练时让模型一次预测未来 2 个 token（用独立 MTP 模块），相当于"训练时多看 1 步棋"。MTP 不仅加速训练收敛，部署时还能用作 speculative decoding 的草稿模型——推理时用一个共享参数的 MTP 模块并行猜 N 个 token，主模型一次验证 N 个，吞吐量提升 1.8–2.0 倍。
FP8 混合精度训练：DeepSeek-V3 第一次在大规模（>1T 训练 token）上验证了 FP8 训练的可行性和有效性。FP8 把每个参数的存储和计算位宽从 16 位降到 8 位，训练吞吐量提升约 1.5 倍、显存减半。代价是数值精度变差，需要仔细设计 per-tensor 缩放策略。

V3 的训练效率是惊人的：14.8T token 预训练仅用 2.664M H800 GPU hours——按公开 H800 云租价约 2 美元/小时折算，总训练成本约 530 万美元。作为对比，GPT-4 训练成本据估在 1 亿美元量级（无官方数字），V3 用了不到 1% 的成本做到了"可对比 closed-source 旗舰"的水平。

2.3 DeepSeek-V3 的真实表现

根据 Hugging Face 官方模型卡（数据来自 DeepSeek-V3 技术报告，2024-12 发布，2025 年公开评测更新），V3 base 模型在标准基准上 全面超越 LLaMA-3.1 405B、Qwen2.5 72B 等同体量稠密模型：

基准	DeepSeek-V3 (37B 激活)	LLaMA-3.1 405B (稠密)	Qwen2.5 72B (稠密)
MMLU	87.1	84.4	85.0
MMLU-Pro	64.4	52.8	58.3
HumanEval (Pass@1)	65.2	54.9	53.0
MATH (EM)	61.6	49.0	54.4
CMath (EM)	90.7	77.3	84.5

在 chat 版本上，V3 还在 MMLU (88.5 vs GPT-4o 87.2)、MATH-500 (90.2 vs 74.6)、AIME 2024 (39.2 vs 9.3) 等多项指标上反超了 GPT-4o 0513。

GitHub 仓库 deepseek-ai/DeepSeek-V3 截至 2026-06-13 已获得 103,748 stars、16,734 forks，是 2025–2026 年全球最热门的开源 LLM 仓库之一。

三、2025 年的新格局：Qwen3-MoE 与 Hybrid Thinking

3.1 Qwen3-MoE：把 MoE 推到「30B 激活」

阿里 Qwen 团队在 2025-04-29 发布的 Qwen3 系列（Qwen 团队, 2025-04），其中两个 MoE 模型延续了 DeepSeek 的"细粒度 + 共享" 思路但做了一些工程变体：

Qwen3-235B-A22B：235B 总参、22B 激活、128 个路由专家、128K 上下文。官方说法是"在 coding、math、通用能力上比肩 DeepSeek-R1、o1、o3-mini、Gemini-2.5-Pro"。
Qwen3-30B-A3B：30B 总参、仅 3B 激活——这是 MoE 第一次把"激活比"压到 10% 以下，却能"outcompete QwQ-32B with 10 times the activated parameters"（官方原文，2025-04）。3B 激活意味着单 token 计算量相当于一个 3B 稠密模型，但知识容量却是 30B。

Qwen3 的设计哲学与 DeepSeek-V3 略有不同：V3 走"超大模型 + FP8 + 极致工程优化"路线，Qwen3 走"中小激活 + 通用性 + 部署友好"路线。3B 激活的 Qwen3-30B-A3B 甚至可以跑在 24GB 显存的消费级 GPU 上（量化后），这为 MoE 进入"端侧 + 个人开发机"打开了一扇门。

3.2 Hybrid Thinking：MoE + 推理时计算的耦合

Qwen3 另一项重要创新是 "思考模式" 与 "非思考模式" 混合。模型在一次生成中可以根据 prompt 中的 /think 或 /no_think 标签，动态决定是否展开长链推理。这本质上是把"推理时计算 (Test-Time Compute)" 的能力（详见 2026-06-13 我们发布的《推理时计算的范式革命》一文）内化进了 MoE 模型本身——同一组权重，通过路由器偏置的微调，能在"快思考"和"慢思考"之间切换。

这种"单一 MoE 模型 = 双模推理引擎"的设计，对部署方非常友好：不再需要为简单任务加载一个 7B 模型、为复杂任务加载一个 70B 模型——一个 30B-A3B 的 Qwen3 就能覆盖两种场景。Qwen 团队的官方文档显示（qwenlm.github.io/blog/qwen3/，2025-04），在 /think 模式下性能随"思考预算"线性提升，且非常平滑。

四、MoE 落地的三个核心工程权衡

4.1 激活比：总参数、激活参数、推理成本的三角约束

MoE 模型选型时必须同时考虑三个变量：

总参数（决定显存上限、权重加载成本）
激活参数（决定单 token FLOPs、推理吞吐量）
总参数/激活参数比（决定"专家冗余度"和路由难度）

DeepSeek-V3 选择了 671B/37B ≈ 18× 的高冗余路线，目的是在 FP8 + 共享专家 + 无辅助损失框架下最大化模型容量。Qwen3-30B-A3B 选择了 30B/3B = 10× 的中等冗余路线，目标是降低部署门槛。Mixtral 8x7B 是 47B/13B ≈ 3.6× 的低冗余，参数利用率最密集但路由粒度最粗。

经验法则：激活比 10–20× 是当前工程甜点——既能保持路由稳定，又能保证单 token 成本可控。低于 5× 时 MoE 优势不够明显，高于 30× 时路由难度急剧上升，需要更复杂的负载均衡策略。

4.2 推理时显存墙：MoE 不"省显存"

MoE 经常被误解为"参数多用得少所以省成本"。真实情况是：MoE 省的是算力（FLOPs），不省显存。 推理时所有专家的权重必须常驻 GPU 显存（因为路由器可能激活任意一个专家），所以 671B 的 DeepSeek-V3 仍然需要 671B × 2 字节（FP16）= 1.3TB 显存才能跑完整模型。

这催生了两种工程解决方案：

专家卸载 (Expert Offloading)：把不活跃专家放在 CPU/NVMe，需要时再换入 GPU。SGLang、vLLM、LMDeploy 都支持，但每次切换有 ms 级延迟。
专家量化 + 共享专家常驻：DeepSeek 官方推荐把 671B 量化到 FP8（约 670GB），配合 H800/H100 的高速 NVLink 互联可单机推理。

普通开发者想本地跑 671B 的 V3，至少需要 8×H100 80GB（约 640GB 显存+共享内存交换）才能勉强推理。如果你需要本地推理，应优先选 Qwen3-30B-A3B 这种 30B 量级 MoE。

4.3 训练稳定性：FP8 + 无辅助损失的双重保险

训练 MoE 的另一大痛点是"loss spike"——训练中突然出现的损失峰值可能摧毁整个 checkpoint。Switch Transformer 时代需要复杂的回滚机制来恢复。

DeepSeek-V3 报告（2024-12）宣称 "整个训练过程没有遇到任何不可恢复的 loss spike"，主要靠三个机制：

无辅助损失负载均衡（避免辅助损失与主损失"打架"）
FP8 的精细缩放（避免数值溢出）
跨节点 EP+TP 通信优化（让 all-to-all 几乎与计算完全重叠，避免路由成为瓶颈）

这一稳定性突破意味着 MoE 不再是"工程高风险赌注"，而是"可复现、可生产"的基础设施。这是 2025 年 MoE 成为开源默认选项的关键拐点。

五、产业判断：MoE 之后，LLM 架构向哪里去？

5.1 "稠密大模型" 时代的终结

2024 年以前，"做大模型 = 做大稠密模型"是默认路径。GPT-4 时代（2023）大家猜测 OpenAI 内部用过 MoE，但稠密路线仍占主流（Mistral 7B、Llama 2 7B/13B/70B、Qwen 1.5 等都是稠密）。2024 年 Mixtral 8x7B 破冰，2025 年 DeepSeek-V3 / Qwen3-MoE / Llama 4 / Mistral Large 24B 等几乎所有旗舰开源模型都转向 MoE。稠密路线的最高水位线可能是 LLaMA-3.1 405B（Meta, 2024）和 Qwen2.5 72B——之后所有更大体量的旗舰都默认是 MoE。

5.2 三条潜在的下一代路线

业界正在探索的"MoE 之后"路线有三条：

① MoE + 状态空间 (MoE-Mamba)：用 Mamba/SSM 替代注意力，再用 MoE 替换 SSM 的 FFN。代表工作是 Jamba (AI21, 2024)，Jamba 1.5 Large (398B 总参 / 94B 激活) 展示了"注意力 + SSM + MoE" 三混合架构的可行性。优势：长上下文推理成本接近 O(n) 而非 O(n²)。挑战：Mamba 与注意力的"权重融合"目前还不够成熟。

② 稀疏激活的稠密模型 (MoLE)：训练一个稠密模型，但推理时用 early-exit 或条件路径跳过某些层。代表工作是 CALM (Google, 2022) 和近期一些"层跳跃"研究。优势：保留稠密模型的工具链。挑战：训练目标与推理目标不一致，性能损失难以控制。

③ 扩散语言模型 (Diffusion LLM)：详见 2026-06-13 我们发布的《Diffusion LLM：当文本生成从打字机变成并行编辑器》一文。Diffusion LLM 本质上是非自回归生成，单次前向可并行生成 N 个 token，与 MoE 关注的"扩展算力"问题是正交方向。未来可能两者融合：MoE 提供参数容量，Diffusion 提供并行解码。

5.3 一个务实的选型建议

对 2026 年中期的应用开发者，MoE 模型选型的实操建议：

端侧/低延迟场景 → Qwen3-30B-A3B（30B/3B）、Phi-3.5-MoE (42B/6.6B)、Mixtral 8x22B (141B/39B)，优先 4-bit 量化。
服务器高吞吐场景 → DeepSeek-V3 (671B/37B)、Qwen3-235B-A22B (235B/22B)，配合 SGLang/vLLM 多卡推理。
极致性能/不差钱场景 → 直接调用 OpenAI o1、Anthropic Claude 4、Gemini 2.5 Pro 等闭源旗舰（推测全部 MoE），不要试图自建。
企业级私有部署 → 优先 7B–22B 激活的 MoE（如 Qwen3-30B-A3B、Mixtral 8x22B），因为它们能在单台 4×H100 服务器上 FP16 推理，且性能接近 GPT-4 水平。

总结

MoE 从 2017 年的学术概念到 2026 年的生产默认，经历了近十年的工程积累。DeepSeek 系列（V1 → V2 → V3）和 Qwen3-MoE 是这一演化的两个里程碑：前者把 MoE 推到了 671B/37B 激活的超大规模并用 FP8 + 无辅助损失解决了训练稳定性，后者用 30B/3B 激活的轻量 MoE 打开了部署端的可能性。未来 1–2 年，MoE + 推理时计算 + Diffusion 解码三者的耦合可能是 LLM 架构下一波演进的方向。

对从业者而言，理解 MoE 的工程权衡（激活比、显存墙、负载均衡）比理解其数学原理更实际。当你看到一个 MoE 模型的"激活参数"数字时，请记住：这不是"模型实际有多大"，而是"模型在跑 1 个 token 时实际算了多少算力"——这两个数字的差，就是 MoE 留给你的优化空间。

参考资料

Shazeer, N., et al. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. arXiv:1701.06538. https://arxiv.org/abs/1701.06538
Lepikhin, D., et al. (2020). GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. arXiv:2006.16668. https://arxiv.org/abs/2006.16668
Fedus, W., et al. (2022). Switch Transformer: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961. https://arxiv.org/abs/2101.03961
Dai, D., et al. (2024). DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models. arXiv:2401.06066. https://arxiv.org/abs/2401.06066
DeepSeek-AI (2024). DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model. arXiv:2405.04434. https://arxiv.org/abs/2405.04434
DeepSeek-AI (2024). DeepSeek-V3 Technical Report. arXiv:2412.19437. https://arxiv.org/abs/2412.19437
Qwen Team (2025). Qwen3: Think Deeper, Act Faster. https://qwenlm.github.io/blog/qwen3/
Mistral AI (2023). Mixtral of Experts: The Sparse Mixture-of-Experts Model. https://mistral.ai/news/mixtral-of-experts/
Hugging Face (2024). DeepSeek-V3 Model Card. https://huggingface.co/deepseek-ai/DeepSeek-V3
GitHub (2026-06-13). deepseek-ai/DeepSeek-V3 Repository. https://github.com/deepseek-ai/DeepSeek-V3 (103,748 stars as of 2026-06-13)