像第一代视网膜iPhone、堪比博士,OpenAI发布最强模型GPT-5

凤凰网科技
Aug 08, 2025

奥特曼发布GPT-5

凤凰网科技讯 北京时间8月8日,今天凌晨,OpenAI举行发布会,正式发布了期待已久的新一代大语言模型GPT-5,并面向所有7亿ChatGPT用户开放使用。

OpenAI在其官网上称,GPT-5是公司迄今为止最强大的AI系统,其智能水平上相较于所有以往模型实现了重大飞跃,在编程、数学、写作、医疗、视觉感知等多个领域都展现出一流性能。

OpenAI CEO山姆·奥特曼(Sam Altman)表示,GPT-5和OpenAI此前的模型相比取得了巨大进步。他将其比作“让我再也回不去”的那种技术,就像第一款配备视网膜显示屏的iPhone带来的体验一样。

GPT-5

“GPT-5真的让我第一次觉得,我们的主力模型已经达到了可以让你向一位真正的专家、一位博士级专家提出任何问题,”奥特曼在发布会上表示,“它最酷的能力之一,就是能即时为你写出高质量软件。按需软件这个概念,将会成为GPT-5时代的标志性特征之一。”

统一系统

GPT‑5是一个统一系统,只会以一个模型的形式呈现,而不是像以前那样分成一个常规模型和一个单独的推理模型。

它由三个关键组成部分构成:一个智能高效的基础模型,能够回答大多数问题;一个用于解决更复杂问题的深度推理模型(GPT‑5 Thinking);以及一个实时路由器(智能分流系统),可根据对话类型、复杂度、工具需求以及用户的明确指示(例如提示中写道“请深入思考这个问题”)快速判断应使用哪个模型。

这个路由器会根据真实反馈不断学习优化,包括用户切换模型的行为、对回复的偏好以及正确率等指标,从而持续提升表现。

在达到使用上限后,每个模型还配备有轻量版本,以处理剩余查询。我们计划在不久的将来将这些能力整合到一个单一模型中。

最强编程模型

OpenAI称,GPT-5是公司迄今为止最强大的编程模型。它在复杂的前端生成和调试大型资源库方面表现尤为出色。它通常能够仅通过一个提示就创建出美观且响应迅速的网站、应用程序和游戏,凭借对美学感知的敏锐洞察力,直观且优雅地将想法转化为现实。

GPT-5编程得分

早期测试者还特别提到,它在设计决策上的表现更出色,对间距、字体排版以及留白等细节有了更深入的理解。

奥特曼表示,GPT-5是“全球最强的编程与写作模型”

在OpenAI的测试中,该模型在基准测试SWE-Bench、SWE-Lancer和 Aider Polyglot中的编程表现优于所有其他模型。在真实世界编程测试中,GPT-5在SWE-bench Verified中的得分为74.9%,在Aider Polyglot中的得分为88%。

在发布会上,OpenAI负责后训练工作的负责人扬·杜布瓦(Yann Dubois)现场演示了如何用GPT-5生成一个带有互动游戏的法语学习网站。

短短几秒内,GPT-5就写出了数百行代码,并生成了该网站的前端界面。杜布瓦简单点击浏览了网站的各个功能,发现一切似乎都按预期正常运行。

多模态

OpenAI称,GPT-5的多模态能力也了提升。该模型在多模态基准测试中表现出色,覆盖视觉、视频、空间及科学推理等多个领域。

多模态测试

更强的多模态能力意味着,ChatGPT能更精准地对图像及其他非文本输入进行推理,无论是解读图表、概述演示文稿的照片,还是回答与示意图相关的问题,它都能胜任。

安全改进

GPT-5安全研究负责人亚历克斯·贝特尔(Alex Beutel)表示,OpenAI对GPT-5进行了超过五千小时的安全风险测试,重点之一是“确保模型不会对用户撒谎”。

和之前的o3推理模型相比,GPT-5回答中出现的“幻觉”更少,但大语言模型自带的“自信撒谎”问题仍然存在。

当模型开始像智能体一样执行任务时,这个问题会变得更加复杂,不过OpenAI表示,GPT-5在更可靠地处理多步骤任务方面表现更好。贝特尔说:“过去我们发现模型有时会声称自己完成了任务,但实际上并未完成,这是个问题。”

GPT-5会为那些以前会拒绝回答的提示提供OpenAI所称的“安全回应”(safe completions)。贝特尔解释道,“如果有人问‘点燃某种特定材料需要多少能量?’,这可能是试图绕过安全保护机制,意图造成伤害,也可能是学生出于学习物理知识而提问。这就给模型如何做出最佳回复带来了真正的挑战。”

OpenAI将于周四开始面向所有免费用户以及付费ChatGPT订阅用户开放GPT-5,教育和企业客户预计将在下周获得访问权限。付费用户将享有更高的使用额度。(作者/箫雨)

更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10