博客
首页归档关于搜索

关联站点

CodeRunCommon AuthNav2文件中转站Web Search

鄂ICP备19019526号

© 2026 博客

  1. 首页
  2. Anthropic 发布 Claude Opus 4.7:最强商用旗舰,CursorBench 70% 超越 GPT-5.4

Anthropic 发布 Claude Opus 4.7:最强商用旗舰,CursorBench 70% 超越 GPT-5.4

2026年4月17日·约 13 分钟·3789 字·12 次阅读
AI 日报AI 日报大模型商业分析技术前沿
Anthropic 发布 Claude Opus 4.7:最强商用旗舰,CursorBench 70% 超越 GPT-5.4

目录

  • 概述
  • 一、发布背景:为什么 Opus 4.7 值得关注?
  • 1.1 时间线
  • 1.2 为什么不是 Mythos?
  • 二、核心升级亮点
  • 2.1 编码能力:13% 提升,CursorBench 70% vs Opus 4.6 的 58%
  • 2.2 视觉能力:98.5% vs 4.6 的 54.5%
  • 2.3 多步工作流程:14% 提升,工具错误减少三分之一
  • 2.4 自适应思考(Adaptive Thinking)
  • 三、配套发布:AI 设计工具
  • 四、可用性和定价
  • 4.1 覆盖平台
  • 4.2 定价
  • 五、第三方评测精选
  • 六、与 Claude Mythos 的关系:安全优先
  • 七、Opus 4.7 vs Opus 4.6:完整对比
  • 八、谁应该升级到 Opus 4.7?
  • 总结

Anthropic 发布 Claude Opus 4.7:最强商用旗舰,CursorBench 70% 超越 GPT-5.4

概述

就在今天(2026年4月16日),Anthropic 正式发布了 Claude Opus 4.7——迄今为止其最强大的商用旗舰模型。

这是一次重磅升级:13%的编码能力提升、98.5%的视觉能力飞跃、CursorBench 70%对58%的压倒性优势——Claude Opus 4.7 不仅在编码和多步工作流程上全面超越前代,更在多个第三方基准测试中击败了 GPT-5.4。

与此同时,Anthropic 还推出了一款配套的 AI 设计工具,可从文本描述直接生成网站、着陆页和演示文稿,直接剑指 Adobe 和 Figma。


一、发布背景:为什么 Opus 4.7 值得关注?

1.1 时间线

时间事件
2026年4月7日Anthropic 发布 Claude Mythos Preview,面向特定安全场景
2026年4月14日The Information 爆料:Anthropic 即将发布 Opus 4.7
2026年4月16日Claude Opus 4.7 正式发布

1.2 为什么不是 Mythos?

值得注意的是,Opus 4.7 并非 Anthropic 最强大的模型——那个位置属于 Claude Mythos Preview(4月初发布,面向部分企业)。

Anthropic 明确表示:Opus 4.7 "less broadly capable"(能力范围更小),且明确降低了网络安全风险。Mythos 的强大网络攻击能力不适合公开发布,Opus 4.7 则在安全可控的前提下提供顶级商用能力。

正如 Anthropic 在公告中所说:

"We are releasing Opus 4.7 with safeguards that automatically detect and block requests that indicate prohibited or high-risk cybersecurity uses. What we learn from the real-world deployment of these safeguards will help us work towards our eventual goal of a broad release of Mythos-class models."


二、核心升级亮点

2.1 编码能力:13% 提升,CursorBench 70% vs Opus 4.6 的 58%

Claude Opus 4.7 在编码方面的提升是本次发布最受关注的部分:

基准测试Opus 4.6Opus 4.7变化
CursorBench58%70%+12pp
Rakuten-SWE-Bench基准3倍提升显著
Terminal Bench未能通过通过3项突破
Qodo 代码审查—Top-Tier—

Cursor 的工程团队表示:"Opus 4.7 是我们测试过的最锐利的模型,在最复杂的 PR 中发现了此前最难检测的 bug,同时精确率保持稳定。"

Replit 评价:"同样质量,成本更低"——这对开发者来说是最实际的升级驱动力。

2.2 视觉能力:98.5% vs 4.6 的 54.5%

在 XBOW 的视觉能力基准测试中,Opus 4.7 实现了惊人的飞跃:

98.5%(Opus 4.7) vs 54.5%(Opus 4.6)

这意味着 Opus 4.7 几乎可以准确完成任何需要视觉理解的任务,包括解读化学结构、复杂技术图表、界面截图分析等。Solve Intelligence 已利用这一能力构建生命科学专利工作流,从起草到侵权检测到无效性图表分析。

2.3 多步工作流程:14% 提升,工具错误减少三分之一

Notion Agent 评测:

"Opus 4.7 是第一个通过我们 implicit-need 测试的模型,且在工具失败时仍能继续执行——这是我们见过的最大可靠性飞跃。"

Hebbia 表示,在其核心编排 Agent 的工具调用准确率和规划能力上,看到了双位数的提升。

2.4 自适应思考(Adaptive Thinking)

Opus 4.7 引入了"自适应思考"能力——模型自动根据任务复杂度调节思考深度:

  • 难题:投入更多思考资源,仔细规划
  • 简单任务:快速响应,不过度思考

Hex 评测总结:"低投入的 Opus 4.7 大致等于中等投入的 Opus 4.6"——这意味着同等成本下性能大幅提升。


三、配套发布:AI 设计工具

Anthropic 同步发布了一款 AI 设计工具,能够:

  • 从文本描述生成完整网站
  • 生成着陆页
  • 生成演示文稿

The Information 此前报道,这一工具与 Opus 4.7 同步发布,剑指 Adobe 和 Figma 主导的设计市场。36Kr 报道称该工具支持从定时任务、API 和 GitHub 触发,堪称"云端员工"。


四、可用性和定价

4.1 覆盖平台

Claude Opus 4.7 目前已在以下平台可用:

  • ✅ claude.ai(面向 Pro、Max、Team、Enterprise 用户)
  • ✅ Claude Platform API
  • ✅ Amazon Bedrock(AWS 定制推理引擎)
  • ✅ Google Vertex AI
  • ✅ Microsoft Foundry
  • ✅ GitHub Copilot

4.2 定价

与 Opus 4.6 相同,不涨价:

指标价格
输入 Tokens$5 / 百万 tokens
输出 Tokens$25 / 百万 tokens
Prompt Caching 节省最高 90%
批处理节省最高 50%

值得注意的是,Opus 4.7 推出初期有 7.5× 溢价乘数(针对 Copilot Pro+、Business、Enterprise 用户),属于限时促销定价,截至4月30日。


五、第三方评测精选

Anthropic 官网公布了 27 家企业的内测反馈,精华摘要:

企业评测结论
Replit"同等质量,更低成本。分析日志追踪、找 bug、提出修复方案更快更准。"
Factory Droids"编码任务成功率比 4.6 提升 10-15%,工具错误更少,验证步骤更可靠。"
Vercel"单次编码任务表现惊人,比 4.6 更正确更完整,还会在开始前对系统代码做证明。"
Ramp"Agent 团队工作流显著增强,角色一致性、指令遵循、协调能力大幅提升。"
CodeRabbit"我们测试过最锐利的模型,在最复杂的 PR 中发现了最难检测的 bug,精确率提升超 10%。"
Notion"第一个通过 implicit-need 测试的模型,工具失败时仍继续执行——这才是真正的队友感。"
Bolt"长时间运行的 App 构建工作流提升达 10%,且没有我们预期的回归问题。"
Quantium"在推理深度、结构化问题框架、复杂技术工作上,是测试中表现最好的模型。"

六、与 Claude Mythos 的关系:安全优先

这是理解本次发布的关键背景:

Claude Opus 4.7 是 Anthropic 在"安全与能力"之间精心平衡的产物。Mythos 代表着 Anthropic 的顶级能力(尤其是网络攻击方面),但不适合公开发布。Opus 4.7 则在有意识降低网络风险的前提下,提供最强商用能力。

具体措施:

  • 训练时实施"差异性降低"网络能力
  • 内置自动检测和阻止高风险网络攻击请求的防护机制
  • 对合法的网络安全研究用途,开放验证计划申请通道

这一策略的背景是:Anthropic 本月初启动了 Project Glasswing——邀请银行 CEO、技术 CEO 和特朗普政府官员共同讨论强大人工智能模型的安全风险,标志着 AI 安全已成为国家层面的严肃议题。


七、Opus 4.7 vs Opus 4.6:完整对比

维度Claude Opus 4.6Claude Opus 4.7
发布时间2026年2月5日2026年4月16日
上下文窗口1M tokens1M tokens
编码能力(CursorBench)58%70%
视觉能力(XBOW)54.5%98.5%
SWE-Bench基准3倍提升
自适应思考❌✅
网络安全防护基础强化
定价5/5/5/255/5/5/25(相同)

八、谁应该升级到 Opus 4.7?

强烈推荐升级:

  • 需要最强编码能力的开发团队
  • 运行复杂多步 Agent 工作流的企业
  • 对视觉理解(图表、UI、文档分析)有高要求的场景
  • 需要在长上下文中保持一致性的深度研究任务

可以考虑升级:

  • 对成本敏感的独立开发者(同等质量,更低思考成本)
  • 法律、金融等需要高准确率文档分析的专业人士

总结

Claude Opus 4.7 是 Anthropic 截至目前最强大的商用旗舰模型——在编码、视觉、Agent 工作流三大维度全面超越 Opus 4.6,且定价不变。

更重要的是,它展示了 Anthropic 在"安全与能力平衡"上的持续探索:Mythos 的顶级能力不适合公开,但 Opus 4.7 在有意识的网络风险管控框架下,提供了最接近 Mythos 的商用体验。

对于 AI 开发者和企业用户而言,Opus 4.7 代表着当前可用的最先进水平——如果你在找一个能真正"当同事用"的 AI 模型,Opus 4.7 值得一试。


参考资料:Anthropic 官方公告、AWS Blog、GitHub Changelog、CNBC、The Information、36Kr、Anthropic 官网客户评测

标签:#AI #Claude #Anthropic #Opus4.7 #大模型 #GPT-5 #编码助手 #AIAgent

相关文章

  • Harness Engineering 入门教程(四):从零搭建你的第一个 Harness4月17日
  • Harness Engineering 高级话题(七):可观测性、熵管理与三类约束体系4月17日
  • Harness Engineering 技术原理(二):Feedforward、Feedback 与六层架构详解4月17日

评论

加载评论中…

发表评论

返回首页