Anthropic 发布 Claude Opus 4.7：最强商用旗舰，CursorBench 70% 超越 GPT-5.4

概述

就在今天（2026年4月16日），Anthropic 正式发布了 Claude Opus 4.7——迄今为止其最强大的商用旗舰模型。

这是一次重磅升级：13%的编码能力提升、98.5%的视觉能力飞跃、CursorBench 70%对58%的压倒性优势——Claude Opus 4.7 不仅在编码和多步工作流程上全面超越前代，更在多个第三方基准测试中击败了 GPT-5.4。

与此同时，Anthropic 还推出了一款配套的 AI 设计工具，可从文本描述直接生成网站、着陆页和演示文稿，直接剑指 Adobe 和 Figma。

一、发布背景：为什么 Opus 4.7 值得关注？

1.1 时间线

时间	事件
2026年4月7日	Anthropic 发布 Claude Mythos Preview，面向特定安全场景
2026年4月14日	The Information 爆料：Anthropic 即将发布 Opus 4.7
2026年4月16日	Claude Opus 4.7 正式发布

1.2 为什么不是 Mythos？

值得注意的是，Opus 4.7 并非 Anthropic 最强大的模型——那个位置属于 Claude Mythos Preview（4月初发布，面向部分企业）。

Anthropic 明确表示：Opus 4.7 "less broadly capable"（能力范围更小），且明确降低了网络安全风险。Mythos 的强大网络攻击能力不适合公开发布，Opus 4.7 则在安全可控的前提下提供顶级商用能力。

正如 Anthropic 在公告中所说：

"We are releasing Opus 4.7 with safeguards that automatically detect and block requests that indicate prohibited or high-risk cybersecurity uses. What we learn from the real-world deployment of these safeguards will help us work towards our eventual goal of a broad release of Mythos-class models."

二、核心升级亮点

2.1 编码能力：13% 提升，CursorBench 70% vs Opus 4.6 的 58%

Claude Opus 4.7 在编码方面的提升是本次发布最受关注的部分：

基准测试	Opus 4.6	Opus 4.7	变化
CursorBench	58%	70%	+12pp
Rakuten-SWE-Bench	基准	3倍提升	显著
Terminal Bench	未能通过	通过3项	突破
Qodo 代码审查	—	Top-Tier	—

Cursor 的工程团队表示："Opus 4.7 是我们测试过的最锐利的模型，在最复杂的 PR 中发现了此前最难检测的 bug，同时精确率保持稳定。"

Replit 评价："同样质量，成本更低"——这对开发者来说是最实际的升级驱动力。

2.2 视觉能力：98.5% vs 4.6 的 54.5%

在 XBOW 的视觉能力基准测试中，Opus 4.7 实现了惊人的飞跃：

98.5%（Opus 4.7） vs 54.5%（Opus 4.6）

这意味着 Opus 4.7 几乎可以准确完成任何需要视觉理解的任务，包括解读化学结构、复杂技术图表、界面截图分析等。Solve Intelligence 已利用这一能力构建生命科学专利工作流，从起草到侵权检测到无效性图表分析。

2.3 多步工作流程：14% 提升，工具错误减少三分之一

Notion Agent 评测：

"Opus 4.7 是第一个通过我们 implicit-need 测试的模型，且在工具失败时仍能继续执行——这是我们见过的最大可靠性飞跃。"

Hebbia 表示，在其核心编排 Agent 的工具调用准确率和规划能力上，看到了双位数的提升。

2.4 自适应思考（Adaptive Thinking）

Opus 4.7 引入了"自适应思考"能力——模型自动根据任务复杂度调节思考深度：

难题：投入更多思考资源，仔细规划
简单任务：快速响应，不过度思考

Hex 评测总结："低投入的 Opus 4.7 大致等于中等投入的 Opus 4.6"——这意味着同等成本下性能大幅提升。

三、配套发布：AI 设计工具

Anthropic 同步发布了一款 AI 设计工具，能够：

从文本描述生成完整网站
生成着陆页
生成演示文稿

The Information 此前报道，这一工具与 Opus 4.7 同步发布，剑指 Adobe 和 Figma 主导的设计市场。36Kr 报道称该工具支持从定时任务、API 和 GitHub 触发，堪称"云端员工"。

四、可用性和定价

4.1 覆盖平台

Claude Opus 4.7 目前已在以下平台可用：

✅ claude.ai（面向 Pro、Max、Team、Enterprise 用户）
✅ Claude Platform API
✅ Amazon Bedrock（AWS 定制推理引擎）
✅ Google Vertex AI
✅ Microsoft Foundry
✅ GitHub Copilot

4.2 定价

与 Opus 4.6 相同，不涨价：

指标	价格
输入 Tokens	$5 / 百万 tokens
输出 Tokens	$25 / 百万 tokens
Prompt Caching 节省	最高 90%
批处理节省	最高 50%

值得注意的是，Opus 4.7 推出初期有 7.5× 溢价乘数（针对 Copilot Pro+、Business、Enterprise 用户），属于限时促销定价，截至4月30日。

五、第三方评测精选

Anthropic 官网公布了 27 家企业的内测反馈，精华摘要：

企业	评测结论
Replit	"同等质量，更低成本。分析日志追踪、找 bug、提出修复方案更快更准。"
Factory Droids	"编码任务成功率比 4.6 提升 10-15%，工具错误更少，验证步骤更可靠。"
Vercel	"单次编码任务表现惊人，比 4.6 更正确更完整，还会在开始前对系统代码做证明。"
Ramp	"Agent 团队工作流显著增强，角色一致性、指令遵循、协调能力大幅提升。"
CodeRabbit	"我们测试过最锐利的模型，在最复杂的 PR 中发现了最难检测的 bug，精确率提升超 10%。"
Notion	"第一个通过 implicit-need 测试的模型，工具失败时仍继续执行——这才是真正的队友感。"
Bolt	"长时间运行的 App 构建工作流提升达 10%，且没有我们预期的回归问题。"
Quantium	"在推理深度、结构化问题框架、复杂技术工作上，是测试中表现最好的模型。"

六、与 Claude Mythos 的关系：安全优先

这是理解本次发布的关键背景：

Claude Opus 4.7 是 Anthropic 在"安全与能力"之间精心平衡的产物。Mythos 代表着 Anthropic 的顶级能力（尤其是网络攻击方面），但不适合公开发布。Opus 4.7 则在有意识降低网络风险的前提下，提供最强商用能力。

具体措施：

训练时实施"差异性降低"网络能力
内置自动检测和阻止高风险网络攻击请求的防护机制
对合法的网络安全研究用途，开放验证计划申请通道

这一策略的背景是：Anthropic 本月初启动了 Project Glasswing——邀请银行 CEO、技术 CEO 和特朗普政府官员共同讨论强大人工智能模型的安全风险，标志着 AI 安全已成为国家层面的严肃议题。

七、Opus 4.7 vs Opus 4.6：完整对比

维度	Claude Opus 4.6	Claude Opus 4.7
发布时间	2026年2月5日	2026年4月16日
上下文窗口	1M tokens	1M tokens
编码能力（CursorBench）	58%	70%
视觉能力（XBOW）	54.5%	98.5%
SWE-Bench	基准	3倍提升
自适应思考	❌	✅
网络安全防护	基础	强化
定价	$5/$ 25	$5/$ 25（相同）

八、谁应该升级到 Opus 4.7？

强烈推荐升级：

需要最强编码能力的开发团队
运行复杂多步 Agent 工作流的企业
对视觉理解（图表、UI、文档分析）有高要求的场景
需要在长上下文中保持一致性的深度研究任务

可以考虑升级：

对成本敏感的独立开发者（同等质量，更低思考成本）
法律、金融等需要高准确率文档分析的专业人士

总结

Claude Opus 4.7 是 Anthropic 截至目前最强大的商用旗舰模型——在编码、视觉、Agent 工作流三大维度全面超越 Opus 4.6，且定价不变。

更重要的是，它展示了 Anthropic 在"安全与能力平衡"上的持续探索：Mythos 的顶级能力不适合公开，但 Opus 4.7 在有意识的网络风险管控框架下，提供了最接近 Mythos 的商用体验。

对于 AI 开发者和企业用户而言，Opus 4.7 代表着当前可用的最先进水平——如果你在找一个能真正"当同事用"的 AI 模型，Opus 4.7 值得一试。

参考资料：Anthropic 官方公告、AWS Blog、GitHub Changelog、CNBC、The Information、36Kr、Anthropic 官网客户评测

标签：#AI #Claude #Anthropic #Opus4.7 #大模型 #GPT-5 #编码助手 #AIAgent

Anthropic 发布 Claude Opus 4.7：最强商用旗舰，CursorBench 70% 超越 GPT-5.4

概述

一、发布背景：为什么 Opus 4.7 值得关注？

1.1 时间线

1.2 为什么不是 Mythos？

二、核心升级亮点

2.1 编码能力：13% 提升，CursorBench 70% vs Opus 4.6 的 58%

2.2 视觉能力：98.5% vs 4.6 的 54.5%

2.3 多步工作流程：14% 提升，工具错误减少三分之一

2.4 自适应思考（Adaptive Thinking）

三、配套发布：AI 设计工具

四、可用性和定价

4.1 覆盖平台

4.2 定价

五、第三方评测精选

六、与 Claude Mythos 的关系：安全优先

七、Opus 4.7 vs Opus 4.6：完整对比

八、谁应该升级到 Opus 4.7？

总结

相关文章

评论

发表评论

Anthropic 发布 Claude Opus 4.7：最强商用旗舰，CursorBench 70% 超越 GPT-5.4

概述

一、发布背景：为什么 Opus 4.7 值得关注？

1.1 时间线

1.2 为什么不是 Mythos？

二、核心升级亮点

2.1 编码能力：13% 提升，CursorBench 70% vs Opus 4.6 的 58%

2.2 视觉能力：98.5% vs 4.6 的 54.5%

2.3 多步工作流程：14% 提升，工具错误减少三分之一

2.4 自适应思考（Adaptive Thinking）

三、配套发布：AI 设计工具

四、可用性和定价

4.1 覆盖平台

4.2 定价

五、第三方评测精选

六、与 Claude Mythos 的关系：安全优先

七、Opus 4.7 vs Opus 4.6：完整对比

八、谁应该升级到 Opus 4.7？

总结

相关文章

评论

发表评论