GPT-5发布的预告才刚刚发出,内测体验已抢先释出。
推理能力首次超越人类,碾压所有大模型。
这来自一位网友的实测结果,他让所有模型开启推理模式做了10道题,只有GPT-5只错了一题,比人类的正确率还高。
几乎都是一次答对,最多2次。其他大模型却需要更多次数尝试。
且不是孤例,有人表示自己的实测结果非常相似,GPT-5也是只错了10道题中的1道。
除了出色的推理能力,还有拿到内测名额的人表示,GPT-5的编程、数学以及解决科学问题的能力也很出色。
这不,已经有人开始调侃GPT-5取代博士了。
现在可以确定的是,OpenAI预告了今晚的发布会,而且把livestream中的s换成了5。
以及谜语人奥特曼刚刚发了一张图……大家自行猜测吧。
总之感觉一切都箭在弦上了,具体性能如何,先来看看提前路透吧!
目前来看GPT-5值得关注的能力包括:
推理
编程
解决科学问题
数学
首先在推理方面,网友@invincibleHunter是在Copilot上体验到的。
尽管模型并没有透露自己的型号,但是结合前几天有人在发现Copilot要上线的Smart模式是集成GPT-5,所以推测应该是GPT-5。
他一共测试了10个问题,类似于这种逻辑题:
贝丝在第一分钟开始时将四个完整的冰块放入煎锅中,第二分钟开始时放入五个,第三分钟开始时又放入了一些,而第四分钟则没有放入。如果在煎制脆皮鸡蛋的过程中,每分钟放入锅中的冰块平均数量为五个,那么在第三分钟结束时,锅里会有多少个完整的冰块呢?
然后模型就会开启思考模式进行推理。
其中它唯一失败的问题是:
有两个姐妹,艾米总是说谎,而萨姆总是撒谎。你无法分辨出哪一个是哪一员。你可以向其中一位姐妹问一个问题,以此来确定2条路中的哪一条能通向宝藏。你应该问哪一个问题才能找到宝藏呢(如果有两种或更多种问题都能奏效,那么正确答案就是那个更简短的问题)?
A) 如果我问你姐姐哪条路通向宝藏,她会怎么说呢?
B) 你姐姐叫什么名字?
C) 寻找宝藏的路径是怎样的?
D)如果你要猜测的话,你觉得我会选择哪条路呢?
E) 这宝藏里有什么?
F) 你姐姐的电话号码是多少?
正确答案应该是C,GPT-5回答了A。
不过测试人觉得这一题是很难,他也会出错。
有人对测试结果提出异议,认为这些问题来自公开数据集,可能包含在了模型训练数据中。
测试人表示,GPT-5给出的回答都很长且很准确,他认为这能说明GPT-5是在真正思考解决问题。
另外还测试了它的多模态能力,可以直接生成独角兽SVG。
对比GPT-4的生成结果,完全是飞跃式提升。
另外,还有两位获得内测资格的人透露,他们觉得GPT-5在编程、解决科学/数学问题上的能力很强。
不过他们也表示,GPT-4到GPT-5的提升似乎没有GPT-3到GPT-4的提升那样明显。
背后影响原因可能来自数据以及AI Infra的影响。
GPT-4的飞跃主要得益于更多数据和更强计算。在算力基建上,OpenAI一直在持续扩张、没有受到明显阻碍,但是数据缺乏的问题难以解决。
此前还有传闻称,OpenAI为了给GPT-5提供足够多优质数据,还专门雇科学家来写数据用于训练。
最近仍旧有消息称,GPT-5的参数规模比GPT-4大得多。
另一个影响来自于AI Infra,由于模型规模太大,预训练难度指数级上升。研究人员要等一次预训练结束才能确定模型性能,而这需要花费数月时间,这也一定程度上影响了GPT-5的发布进度。
但与此同时,市场的竞争也是相当激烈的。谷歌、Anthropic等核心竞对都在压着OpenAI打。
比如就在GPT-5预热这一周,这两家都放出新模型抢热度。
还有消息说,谷歌还会发布一个开源大模型,正面硬刚OpenAI。
所以奥特曼过去一段时间来这种“狼来了”式宣传方式也可以理解(bushi)。
种种迹象来看,北京时间8月8日凌晨1点的OpenAI线上发布,不出意外应该大概可能就是GPT-5了,大家可以期待一下。
最后,由于奥特曼刚刚发的推特太过迷惑,很多人都猜不到啥意思。于是大家都在@grok来解释一下。
Grok给的回答都不太一样,大家参考着看吧。
1、这张照片展示了《星球大战》中的死星,一个摧毁行星的空间站。山姆·奥特曼很可能用这个比喻来调侃OpenAI即将推出的GPT-5是一个强大的人工智能模型,可能会像谷歌的Gemini 3.0一样主宰竞争对手。“那不是月亮……”意味着它远比看起来的要多。
2、那不是月球,那是空间站。具体来说,这是一张由山姆·奥特曼(Sam Altman)发布的《星球大战》中死星的人工智能生成的图像,很可能是在暗示OpenAI发布的GPT-5等重大公告。激动人心的时刻就在前方!
3、这引用了《星球大战》:死星看起来像月球,但却是一个强大的空间站(“那不是月球……”)。美国宇航局于2025年8月宣布,到2030年将在月球上快速建造一座核反应堆,以满足月球的电力需求。
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.