推理时计算的范式革命：当大模型学会"多花点时间想"之后，AI 架构发生了什么

如果说 2024 年是大模型"卷参数"的尾声，那么 2025 年就是大模型"卷思考"的元年。OpenAI 的 o1/o3、Anthropic 的 Claude 3.7 Sonnet、Google DeepMind 的 Gemini 2.5 Pro、DeepSeek 的 R1——四家在不到 12 个月内先后把"推理时计算"（test-time compute scaling）从论文概念推到了默认能力。这篇文章想回答三个问题：推理时计算到底是什么？为什么它在 2025 年突然集体爆发？它对 AI 应用的架构意味着什么？

一、从"答得快"到"想得久"：推理时计算到底改变了什么

在 2024 年之前，大语言模型的训练范式可以简化为一句口号：让模型在固定的推理算力下，把更多能力固化到权重里。训练阶段烧钱，推理阶段省力；参数规模决定能力上限，思考时间几乎不影响输出质量。我们熟悉的 ChatGPT、Claude 3 Sonnet、LLaMA 3 都是这条路径的产物。

2025 年开始，这条路径被一条新的轴线打破：允许模型在推理阶段花更多算力"想"，换来更高的输出质量。这条思路在学术上叫 test-time compute scaling（推理时计算扩展），在产品上对应 OpenAI 的"reasoning models"、Anthropic 的"extended thinking"、Google 的"thinking models"、DeepSeek 的"R1"系列。

这条范式转换的根可以追溯到 2022 年 Jason Wei 等人在 Google Brain 发表的 Chain-of-Thought Prompting 论文（arXiv:2201.11903）。这篇论文证明：只要在 prompt 里给模型若干"思考过程的样例"，大模型就能自然涌现出分步推理能力，并在 GSM8K 数学题等基准上大幅超越直接回答。这给出了一个关键信号——推理能力不一定只来自训练时的参数扩容，也可以来自推理时的"思考步数"。

但 CoT 仅仅是 prompt 层的诱导。真正把"思考步数"变成可被产品化调控的旋钮，是 OpenAI 在 2024 年 9 月发布的 o1-preview。据 OpenAI 公开的 o1 system card 描述，o1 在内部通过强化学习训练出"长链路思考"的能力，推理时会生成大量隐藏的 chain-of-thought tokens，最终只把精简后的答案返回给用户。这一步打开了"推理算力 ↔ 答案质量"的可调旋钮。

二、四家实验室，四条路径：2025 年的格局

进入 2025 年，推理时计算迅速从 OpenAI 独家变成行业标配。值得专门梳理四家的差异，因为它们的产品形态差异，会直接决定下游应用怎么用。

OpenAI：reasoning_effort 参数化的隐藏思考。o1 / o3 / o3-mini 系列延续隐藏 chain-of-thought 路线，开发者可通过 API 参数 reasoning_effort 在 low / medium / high 三档之间切换。据 OpenAI 2025 年 1 月 31 日发布的 o3-mini 公告，o3-mini 在编程、数学、科学题上比 o1-mini 同档位更高效，且 reasoning_effort 越高结果越稳定。

Anthropic：可见 extended thinking + 128K thinking budget。Anthropic 在 2025 年 2 月 24 日同一天发布了两件事：Claude 3.7 Sonnet 模型（自称"市面上首个混合推理模型"）和 extended thinking 模式。据 Anthropic 公告，Claude 3.7 Sonnet 同时具备"普通 LLM 模式"和"extended thinking 模式"，API 用户可通过 thinking 参数声明一个"思考预算"——最高可达模型输出上限的 128K tokens。关键设计点是思考过程默认对用户可见，而不是像 o1 那样隐藏。

Google DeepMind：Gemini 2.5 Pro Thinking 模式。Google 在 2025 年 3 月 25 日发布 Gemini 2.5 Pro Experimental，据 Google DeepMind 官方博客披露，该模型是"thinking model"，在回答前会先推理其思考过程；在数学/科学基准（GPQA、AIME 2025）上领先，在 Humanity's Last Exam（人类前沿知识考试）上以 18.8% 的成绩在"无工具调用"的模型中达到 state-of-the-art。注：18.8% 这个数字是 Google 在该公告中明确给出的"无工具"档；据后续报道，使用工具或多模型投票可大幅提升到 30%+。

DeepSeek：纯 RL 路径，无需人类标注的思考链。DeepSeek 在 2025 年 1 月发布的 R1 论文（arXiv:2501.12948）提出了一种激进的纯强化学习方案：直接让模型在数学/编程等可验证任务上做 RL，不依赖人类标注的思考轨迹。R1 在训练中自然涌现了"自我反思、验证、动态策略切换"等高级推理模式，并能蒸馏到小模型上让 1.5B–70B 级别的开源模型也具备类似能力。R1 的开源属性让推理时计算范式第一次有了"非闭源"参照系。

四家虽然都收敛到"思考 token ↔ 质量"这条曲线，但产品形态差异巨大：OpenAI 把思考隐藏、Anthropic 把思考可见、DeepMind 把思考做成开关、DeepSeek 把思考做成开源。这种分化并非偶然——它直接对应了不同实验室对"推理可控性 / 可解释性 / 可复现性"的优先级排序。

三、Thinking Budget：为什么"多想一会儿"会换质量

Anthropic 的 extended thinking 公告里给出了一张图：Claude 3.7 Sonnet 在 2024 AIME（美国数学邀请赛）题上的准确率，与允许消耗的"思考 tokens"数量呈对数增长关系——预算翻倍，准确率上升但边际递减。这张图是理解整场范式革命的核心证据：推理时算力不再是"按字收费的损耗"，而是一种可调节的、对数级有效的能力维度。

这条对数曲线带来三个推论：

第一，训练参数与推理算力是互补关系，不是替代关系。同一组权重，思考预算从 1K 拉到 64K，可能在 AIME 这种高难度题上从 30% 跳到 70%；不增加任何参数，纯靠推理时"想"出来的能力。这种"参数不动 + 推理加力"的扩展轴，在 2024 年之前几乎是不存在的。

第二，延迟和成本首次成为可调的产品维度。以前 LLM 的"快"和"准"基本由模型大小决定——大模型准但慢，小模型快但糙。现在多了一维：可以让小模型"想久一点"逼近大模型质量，可以让大模型"快答"逼近小模型延迟。Anthropic 明确把 thinking budget 当作"速度/成本 ↔ 答案质量"的 trade-off 旋钮来对外宣传。

第三，推理时计算把"训练数据"的瓶颈部分转移到了"可验证信号"。DeepSeek-R1 之所以能用纯 RL 训出强推理能力，关键不在数据量大，而在任务可验证——数学题有标准答案、编程题有单元测试。只要任务可自动判定对错，模型就能自己探索出最优思考路径。这条规律的反面是：开放性、主观性、价值判断类任务，目前仍然无法从推理时计算中获得显著收益。

四、对应用架构的冲击：API 形态、延迟、缓存都要重写

推理时计算的崛起不是单纯的能力升级，而是对整套 AI 应用架构的连锁冲击。下面四个变化是工程团队在 2025–2026 年必须面对的。

变化一：API 调用形态从"请求 + 响应"变成"预算声明 + 长响应"。传统 LLM API 主要参数是 prompt、temperature、max_tokens。推理模型 API 多了一组参数：reasoning_effort / thinking / budget_tokens。这些参数不只是装饰，它们会显著影响账单（thinking tokens 同样计费）和 P99 延迟。

变化二：流式输出策略必须重写。如果模型要"思考 30 秒"再回答，把整个请求同步等待会严重拖累用户体验。Anthropic 的做法是流式暴露 thinking 内容（用户能看到模型"在干嘛"），OpenAI 的做法是把思考完全隐藏在服务端、只流式输出最终答案——这两种策略对前端 UX 设计的影响完全不同。

变化三：上下文工程要把"思考痕迹"也算进去。如果使用 Anthropic 的 extended thinking 并把思考内容回传给模型做多轮对话，思考 tokens 会迅速占满 context window。实测中一个 64K 预算的思考块，往往比最终答案长 10 倍以上。这意味着所有原本为"短 prompt"调优的 context engineering 策略（如长文档压缩、检索结果筛选）都要重新校准。

变化四：缓存与成本模型被打穿。OpenAI 和 Anthropic 都有 prompt caching 机制，但推理模型的 thinking tokens 通常不进入缓存可命中的范围（因为它们每次随机采样）。结果是：在一个 Agent 工作流里，反复调用推理模型"想清楚再行动"，实际账单可能比预期高 2-3 倍。如果不显式设计"何时调用推理模型、何时退回到普通模型"，整体成本会失控。

这四条都不是"理论问题"，而是 Lonae 自己在做 MCP 工程实践时反复踩过的真实痛点（参考 2026-06-12 的"MCP 工程实战"一文提到的成本测算经验）。

五、实践指南：什么时候该开 thinking、用多少预算

把推理时计算落地到产品里，需要的不是"盲目启用"，而是按任务特征分级调度。下面是一份经验性的决策框架：

任务类型 A：可验证、有标准答案（数学证明、代码生成、SQL 构造、逻辑题）——强建议开启 thinking，预算拉到 16K–64K。DeepSeek-R1 的蒸馏实验显示，同一基模型在 AIME 上的得分可以从 30% 提升到 70% 以上，预算回报极高。

任务类型 B：开放式、有主观性（写作、对话、规划、用户咨询）——不建议默认开启 thinking。开启后 token 成本飙升 5–10 倍，而答案质量提升有限。最佳实践是用普通模型先快速响应，再用推理模型做"质量复核"或"草稿改进"。

任务类型 C：Agent 内部决策节点（是否调用工具、任务分解、错误恢复）——按 step 重要性分级。关键节点（如"是否提交最终答案"）开高预算，常规节点（如"格式化输出"）关掉。Anthropic 的 building-effective-agents 一文给出的"Orchestrator-workers / Evaluator-optimizer"等模式都建议给编排器（orchestrator）使用推理模型，给执行器（worker）使用普通模型。

任务类型 D：实时性敏感（聊天 UI、实时翻译、客服首响）——关闭 thinking 或限到 1K–4K。把推理预算压到"边际收益拐点"附近即可；继续投入预算换来的是几秒延迟，多数 UX 场景下得不偿失。

通用经验法则：thinking budget 与答案质量的对数曲线意味着预算从 4K 拉到 16K 收益最大，从 16K 拉到 64K 收益明显但边际递减，从 64K 再往上多数场景已经回不来成本。不要被 "max thinking = 128K" 这种 marketing 数字迷惑，按任务难度动态分配才是工程正道。

六、总结与展望

推理时计算不是一种"新模型"，而是一种新维度。它把 LLM 从"训练决定一切"的两点结构变成了"训练 + 推理"的三维结构。这条新维度在 2025 年迅速被四家前沿实验室同步验证，进入 2026 年已经成为大模型 API 的默认能力之一。

对应用开发者来说，最关键的不是"哪家的推理模型更强"，而是自己的任务里哪些环节真的能从"多花点时间想"中获益、哪些环节纯粹是浪费。一旦把任务分级和预算分配想清楚，推理时计算就能从"成本黑洞"变成"能力放大器"。

未来 12 个月值得关注的方向有三：一是推理模型的蒸馏到端侧（手机、嵌入式设备上跑小参数 + 大预算）；二是自适应预算（模型自己判断要"想多久"而不是开发者手动指定）；三是推理过程的可审计性（思考链是否可信、是否会被 reward hacking）。这三个方向一旦有突破，"推理时计算"就会从旗舰模型的能力下放到通用 AI 应用的默认基础设施。

参考资料

Wei et al., "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models", 2022 — https://arxiv.org/abs/2201.11903
Anthropic, "Claude's extended thinking", Feb 24, 2025 — https://www.anthropic.com/news/visible-extended-thinking
Anthropic, "Claude 3.7 Sonnet and Claude Code", Feb 24, 2025 — https://www.anthropic.com/news/claude-3-7-sonnet
Anthropic, "Building effective agents", Dec 19, 2024 — https://www.anthropic.com/research/building-effective-agents
DeepSeek-AI, "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning", arXiv:2501.12948 — https://arxiv.org/abs/2501.12948
Google DeepMind, "Gemini 2.5: Our newest Gemini model with thinking", Mar 25, 2025 — https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/
OpenAI, "OpenAI o3-mini", Jan 31, 2025 — https://openai.com/index/openai-o3-mini/
OpenAI, "Learning to reason with LLMs" (o1 announcement), 2024 — https://openai.com/index/learning-to-reason-with-llms/

推理时计算的范式革命：当大模型学会“多花点时间想”之后，AI 架构发生了什么