“全球最强编程模型”来了!Anthropic发布Claude 4,连干七小时性能稳定

市场资讯
23 May

OpenAI的劲敌Anthropic发布Claude 4系列模型,称Opus 4为“全球最佳编程模型”,对AI投资者而言标志着模型能力的新纪元,可能重塑软件开发行业格局。

除了新模型,Anthropic还宣布,编程工具Claude Code正式上线,并提供新的功能供连接到其模型的开发者使用,包括将推理与网页搜索和其他工具相结合的能力。

Anthropic的新发布加剧了与OpenAI、Google在顶级模型领域的竞争,为投资者提供了重新评估AI领域竞争格局的机会。

Opus 4精于编码 Sonnet 4较3.7版明显提升

美东时间5月22日周四,Anthropic在公司首届“Code with Claude”开发者大会上推出了Claude 4系列的两款全新模型:Claude Opus 4和Claude Sonnet 4。

Anthropic将Claude Opus 4称为“公司迄今最强大的模型,也是全球最佳编程模型”,而Claude Sonnet 4 是Claude Sonnet 3.7版的重大升级,提供卓越的编码和推理能力,同时更精确地响应用户指令。

Anthropic称,Opus 4在编码、研究、写作和科学发现方面突破了界限,而 Sonnet 4 作为 Sonnet 3.7 的即时升级,为日常用例带来了前沿性能。

在SWE-bench软件工程任务基准测试中,Opus 4得到72.5%的准确度成绩,在Terminal-bench上达到43.2%。Sonnet 4则在SWE-bench上达到72.7%,相比得到62.3%成绩的Sonnet 3.7版本有显著提升。

Opus 4和Sonnet 4都采用了混合模式设计,既可提供几乎即时的回应,也能进行更深入的推理思考、即扩张思维。

在Anthropic的Pro、Max、Team 和 Enterprise Claude 套餐中包含了上述两种模型的能力,Sonnet 4模型也面向免费用户开放。新模型均可在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用。

定价与之前的Opus 和 Sonnet 模型一样:Opus 4 为每百万token输入和输出分别收费15美元和75 美元,Sonnet 4的百万token输入和输出分别收取3美元和15 美元。

Anthropic产品负责人Scott White表示,此次发布标志着

“Claude从一个提供答案的工具转变为一个真正有能力的协作伙伴”。

超长持续工作能力:AI代理的革命性突破

Opus 4最引人注目的特点是其惊人的持续工作能力。据Anthropic介绍,该模型能够在需要专注努力和数千步骤的长时间任务中保持稳定表现,可以连续工作数小时。

Anthropic称,日本电商巨头乐天(Rakuten)已验证了Opus 4的能力,在乐天要求严格的一项开源重构任务中,该模型独立运行了7小时,且这期间保持稳定的性能。

这种持久的注意力和工作能力使Opus 4特别适合复杂的编码和问题解决场景。

代码编辑平台Cursor称Opus 4为“编程领域的最新技术,在复杂代码库理解方面实现了飞跃”。编程平台Replit则表示,在跨多个文件的复杂更改方面,Opus 4取得“显著改进”。

扩展思考与工具使用:AI的思维质变

两款新模型都引入了“扩展思考与工具使用”功能(测试版),允许Claude在思考过程中使用网络搜索等工具,在推理和工具使用之间交替以改进回应。这些模型还能并行使用工具,更精确地遵循指令,并在开发者授予本地文件访问权限时展示显著改进的记忆能力。

特别值得注意的是,Opus 4在记忆能力方面大幅超越了所有以前的模型。当开发者构建的应用程序提供Claude本地文件访问权限时,Opus 4能够创建和维护“记忆文件”来存储关键信息,这解锁了更好的长期任务意识、连贯性和代理任务性能。

Claude Code正式上线:AI开发新时代

在模型发布的同时,Anthropic宣布,在测试收到“广泛的积极反馈”后,Claude Code正式全面推出。现在通过GitHub Actions支持后台任务,并与VS Code和JetBrains原生集成,直接在开发者文件中显示编辑,实现无缝结对编程。

Claude Code 由 Opus 4 和 Sonnet 4 提供支持,让Anthropic 的大语言模型(LLM)拥有更多功能,因为它可以编写代码来分析数据。用户甚至可能不知道 Claude 在为完成任务编写和调试代码,但它的编码能力将使模型在分析大量数据时能够运用思维。

Scott White表示:“编码是一个快速增长、非常令人兴奋的市场。”

White 任务,Claude Code 不仅适合那些希望为旗下软件工程师提供工具进而提高自身专业技能的公司,也适合那些可能不懂编程的人。

他举例说,如果一位产品经理正在向团队推荐一个点子,他们就不必仅仅创建一份文档来解释相关概念,而是可以找到Claude,并请 Claude 创建这个点子的原型。

AI巨头竞赛加剧:行业格局再洗牌

据彭博社报道,这次发布来自于AI领域异常繁忙的一周,期间微软宣布了新的编码代理和与Elon Musk的Grok的合作伙伴关系,Google扩大了其AI支持的搜索功能,OpenAI宣布了65亿美元的交易收购由Jony Ive领导的AI硬件初创公司io。

这表明Anthropic、Google和OpenAI之间的“最佳前沿模型”竞争正在升温,同时对这些公司能否将当前AI技术推向新高度的疑问依然存在。

投资者视角:重新评估AI竞争格局

对投资者而言,Claude 4系列的推出标志着AI能力的一个新纪元。特别是在编程领域,Anthropic声称已经取得了领先地位,这可能对软件开发行业产生深远影响。GitHub已表示Claude Sonnet 4将成为GitHub Copilot中新编码代理的基础模型,这进一步验证了其能力。

随着AI竞争的加剧,投资者需要重新评估行业格局,尤其是Anthropic相对于OpenAI和Google等竞争对手的地位。Claude 4系列在编码、推理和代理任务方面的强大表现,可能为Anthropic赢得更多市场份额和企业客户提供了机会。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10