发布会出错又无聊的GPT-5,实测下来强的可怕

知危
Aug 08

2025 年 8 月 8 日( 今日凌晨 ),OpenAI 今日正式发布 GPT-5,距离 GPT-4 发布以来已经过去了两年多。

自 GPT-4 发布以来,OpenAI 相继将大语言模型拓展了多模态生成、深度思考、深度研究等关键能力,且都是行业首创,每次发布都可以说是 “ 震惊世界 ”。

相比之下,OpenAI 这次的发布会就显得没有那么惊艳或者说有些无聊了。这次,它将所有类型的模型统一在完善的 Agent 框架下,打造出了 GPT-5,使其终于拥有了各家模型厂商都在竞逐的 Agentic Coding 能力。

实际上,说这场发布会并不惊艳,也主要是因为相比各家竞争对手,OpenAI 在 Agentic Coding 研发的进展上要慢,不像之前每次 GPT 代际发布时给人一种 “ 行业首创 ” 的惊艳感。

那么 GPT-5 有达到大家的期待吗?我们先看看发布会的重点内容。

首先,最良心的当然是这一次免费用户也能直接用上 GPT-5,Pro 用户则能用上最强的 GPT-5 Pro。免费用户还能持续使用数小时实时语音,这个福利太诱人了!

GPT-5 号称在任何领域都有博士级别能力。在医疗健康领域,能够对专业的癌症诊断报告做通俗易懂的解读。对复杂的放射治疗方案决策,也能提供详细的分析报告,帮助病人权衡利弊。一位癌症患者的家属在发布会上表示,“ 真正鼓舞人心的是看着她通过使用 GPT-5 重新获得自主权,病人很容易感到无助,因为知识差距太大了。”

此外,OpenAI 一直在强调 GPT-5 的两个特点,那就是简单易用和快速。

比如,在 API 调用上,GPT-5 实现了更加灵活的模型和思考强度调节,具体来说就是 GPT-5 提供了三个级别的模型选择:GPT-5、GPT-5 mini、GPT-5 nano,并且每个版本都可以调节推理工作量。

通过 “ 详细程度 ”( Verbosity )参数,用户可以控制输出更简洁或更详细。甚至,它的函数调用都能用自然语言来配置,而不需要用 JSON 格式。

并且,GPT-5 还将发布一个结构化输出的扩展,用户可以提供正则表达式,甚至是上下文无关语法,并将模型的输出约束到这些语法上。对于想提供自定义 DSL,或者用户有自己的 SQL 分支并指定模型始终遵循该格式的场景,将非常有用。

开发中会有很多难以描述的需求或需要非常具体描述的需求,前者容易出错,后者则耗费心力。OpenAI 指出,GPT-5 在指令遵循上非常擅长。当你输入了非常模糊的指令,模型会准确推断你的意图,当你输入了非常详细、专业的指令时,GPT-5 则会直接遵循指令,并注意细微之处,GPT-5 还非常擅长 dubug 和回溯。

当然,这是各家大模型厂商都会重复的套话,是否真实,看看本文文末的实测案例就知道了。

基准测试方面,知危还是更关心 GPT-5 的 Agentic Coding 能力,它在 SWE-bench Verified 上达到了 74.9%,恰好前两天,Claude 4.1 Opus 在该基准上提升到了 74.5%,胡乱猜测是在给 OpenAI 加压力,导致 GPT-5 最终只是险胜,并且 Anthropic 后面还有大更新,也非常令人期待。

哦对了,这里要强烈吐槽一句,发布会的直播流里,SWE-bench Verified 的柱状图是做错了的,并不像上图一样标准,不知道是不是故意做错的,用来视觉上凸显新模型增长较大。

发布会直播流中的错误图

作为这次发布会上的第一张图表,它直接就给熬夜看发布会的我大脑干宕机了。

插曲结束,我们回归正题。在更聚焦的多语言代码编辑、工具调用、通用指令集、指令遵循等基准测试上,GPT-5 也取得了极大的进步。

对于 Agentic Coding 能力,非常重要的一个方面就是对幻觉率的控制,不然多轮调用模型会导致幻觉累积严重,而且目前实际应用中幻觉是无法被自动定位的,基本只能靠人类验证。GPT-5 也在这方面做了大幅优化,启用网络搜索后,GPT-5 的幻觉率比 GPT-4o 低约 45%;启用思考模式后,GPT-5 的幻觉率比 o3 低约 80%。

结合 2025 年 8 月 7 日更新的 Hallucination Leaderboard 的 GPT-4o 幻觉率数据估计,GPT-5 的低幻觉率是有竞争第一名的实力的。

图源:https://github.com/vectara/hallucination-leaderboard

改善模型欺骗性也非常具有深远意义,能极大程度减少影响更严重的幻觉,比如歪曲操作过程或谎报任务成功率等。o3 曾被指出在缺乏关键工具时会伪造工具使用。其它问题还包括任务说明不够具体,甚至不可能完成时,一本正经地胡乱操作。

之前的模型在处理这类问题时也比较生硬,只决定完全拒绝或是完全服从。在大多数情况下很有效,但可能被一些巧妙设计的提示词攻击所攻破。GPT-5 大大缓解了这类问题的出现,并且使用了更加灵活的处理方式。

比如,对于看似中性、客观但实际具有危害性的目的( 比如用户询问如何点燃各种烟花中常用的材料的技术细节,可能用于制造炸弹 ),o3、GPT-5 都能准确识别潜在恶意。

o3 一般都是直接拒绝,GPT-5 则可能只部分回答问题,或者只是抽象地回答。如果不得不拒绝,会告诉用户拒绝的原因,并提供安全的替代方案。

另外,值得关注的是,GPT-5 还大幅提升了上下文长度,从 o3 pro 的 200K 提升到了 400K,是 Claude 4 的两倍,虽然还远不如 Gemini 2.5 pro 的 1000K,但对于开发者而言也是极大的喜讯。

新增 200K 的上下文长度有多有用呢?OpenAI 没有展示,但至少 128K-256K 范围内,GPT-5 相比内部其它模型有了很大提升。

API 价格上,GPT-5 甚至比 GPT-4o 还便宜,输入价格只有 GPT-4o 的 1/2、o3 pro 的 1/16,输出价格和 GPT-4o 相同且只有 o3 pro 的 1/8。

总结来看,如果只看发布会,第一印象是:完美,但普通。

完美在于,GPT-5 优化了作为大模型产品需要考虑的几乎所有方面:快速、灵活调用、灵活配置、灵活思考、低幻觉率、高安全性、长上下文等。

普通在于,就发布会展示的案例,其实并不够让人眼前一亮。

写大学物理演示、金融仪表板等前端应用,这些场景大部分编码模型都能做的很好了,博客上也就是展示了Dino Run的视觉美化版。连接 Gmail、Google Calendar 等 MCP 能力来提高记忆能力,也是很多大模型的标配了。而且,GPT-5 主要强调的都是实用层面的特性,不像 GPT-4、Claude 3.5 Sonnet 等突破极限的进展更能给人带来惊喜。

但知危还是抱着好奇去 Cursor 上试了一下( 现在就能免费在 Agent 模式中用 GPT-5 ),结果发现:真的太完美了!( 至少这一次测评体验的意义上,甚至知危发现自己不需要做很长时间的测评 )

参考OpenAI对指令遵循能力的介绍,知危给GPT-5提供了非常详细的网页版Excel开发的提示词:

请帮我开发一个功能完整的网页版Excel应用,需要实现以下核心功能模块:

第一阶段:基础功能(核心优先级)

网格渲染系统

实现1000×1000单元格的虚拟渲染

优化滚动性能,确保流畅体验

横坐标(A、B、C等)和纵坐标(1、2、3等)需要与单元格精确对齐

滚动时坐标轴与内容区域保持同步,无偏移

单元格编辑功能

双击单元格进入编辑状态,编辑框与原单元格完全重合

Enter键保存内容并向下移动到下一个单元格

Tab键保存内容并向右移动到下一个单元格

支持空值和默认值的正确处理

编辑栏应可编辑,实时显示和修改当前选中单元格的值

富文本格式工具栏

实现独立的格式按钮,每个按钮状态基于当前选中单元格的格式属性独立判断:

字体大小调整

加粗、斜体、下划线、删除线(按钮状态互相独立)

文本对齐:左对齐、居中、右对齐

背景颜色设置

一键清除格式功能

UI界面要求

顶部工具栏包含所有格式设置按钮

名称框显示当前选中单元格坐标(如A1、B2)

编辑栏显示并可编辑当前单元格内容

整体界面美观,具有现代化设计风格

第二阶段:高级功能(扩展功能)

行列操作

点击行号后,按"="键在下方插入新行,按"-"键删除当前行

点击列号后,按"="键在右侧插入新列,按"-"键删除当前列

删除后自动重排坐标编号,保持连续性

添加最小保护机制,避免删除最后一行或列

复制粘贴操作

实现Command/Ctrl+C(复制)、Command/Ctrl+X(剪切)、Command/Ctrl+V(粘贴)快捷键

支持单元格内容和格式的复制粘贴

支持行列的整体复制粘贴操作

撤销恢复系统

实现Command/Ctrl+Z(撤销)和Command/Ctrl+Y(恢复)功能

维护操作历史栈,限制最大100层以控制内存

页面刷新时清空操作栈

选择功能

支持单元格多选(拖拽选择矩形区域)

支持整行、整列选择

选中状态的可视化反馈

第三阶段:完善功能(产品化)

数据导入导出

支持导出为CSV格式文件

支持导出为JSON格式文件

确保导出的文件能在Microsoft Excel中正确打开

UI美化优化

添加滚动动画效果

优化阴影和渐变效果

提升整体视觉体验和交互流畅度

响应式设计,适配不同屏幕尺寸

技术要求

技术栈

使用HTML、CSS、JavaScript实现,确保:

代码结构清晰,模块化设计

性能优化,特别是大数据量渲染

兼容主流浏览器

代码风格统一,具有良好的可维护性

关键技术点

虚拟滚动技术处理大量单元格

事件委托优化性能

状态管理确保数据一致性

内存优化,避免内存泄漏

错误处理

添加边界情况处理

确保操作的原子性

提供用户友好的错误提示

开发注意事项

逐步实现:请按阶段顺序实现功能,确保每个阶段功能稳定后再进入下一阶段

状态同步:确保UI状态与数据状态始终保持一致

性能考虑:重点优化滚动性能和大数据渲染

用户体验:所有交互操作应提供即时的视觉反馈

代码质量:保持代码的可读性和可维护性

请基于以上需求,生成一个功能完整、性能良好、界面美观的网页版Excel应用。如果在实现过程中遇到复杂问题,请分步骤详细说明解决方案。

Think harder

结果,对于这个提示词就有 1000 多字、需求非常细致繁多的需求,GPT-5 跑一次就帮我实现了所有功能,除了背景颜色设置需要重复点一次单元格以及剪切后内容先删除等小毛病,几乎可以说一个 bug 都没有。说 GPT-5 快也不是吹牛,整个过程不到 5 分钟。

下图是导出 .csv 文件后用 Excel 打开的数据,和网页里的数据是一致的。

第二轮迭代顺利增加了单元格拉伸功能,并且 GPT-5 自己发现第一步只实现了导出文件功能,而没有实现导入文件的功能,就 “ 自作主张 ” 给我补上了,实测也是正常运行。就一个大槽点,界面审美太一般了。

一次调用成型,顺滑的 debug 体验,加上超快速度,仅 800 行的最终代码量,以及低廉的 API 价格,只用一次体验,知危就感受到了 GPT-5 是如何在所有可能的环节上,节省开发者的金钱、时间和内耗成本。

或许可以理解为,这种类型的完美或实用性,比于突破现实场景( 而不是基准测试 )的极限,更有意义。

毕竟大量垂直领域的大模型落地,需要的不是超强的 AI,而是超可靠的 AI,如此才能结合企业自己的行业 knowhow 做出真正有用的 AI 应用。

最后,再把 GPT-5 的特点详细汇总一下:

基本的层面包括:快速、便宜、低幻觉率、低欺骗率、高安全性、易于使用、长上下文等。

Agentic Coding 侧重的包括:指令遵循、意图识别、工具使用、可解释性、可编辑性、上下文管理等。

可以说,OpenAI 是希望把 GPT-5 打造成一个完美的大模型产品,而不是最先进的模型,关注的是如何在实际场景中使用的体验和价值。

这一步的实现或许意味着大模型进化第一阶段的完成,主要依靠的是全量互联网公开数据和工程优化。

当然,大模型都还有相当大的进步空间,毕竟基准测试都远没达到 100%,谁好意思说实现了 AGI ?何况多模态数据、垂直领域数据甚至合成数据,都还潜藏巨量智能等待挖掘。

且看 OpenAI 的各大冤家 Anthropic、谷歌等又将如何 diss 它一把。

撰文:流大古

编辑:大饼

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10