OpenAI推理模型“上新”

市场资讯
23 Dec 2024

  OpenAI离AGI(artificial general intelligence,通用人工智能)似乎又更近了一步。上周五,在“OpenAI 12天活动”的第12天,OpenAI首席执行官萨姆·奥特曼宣布了其最新的人工智能“推理”模型o3和o3-mini,这两款模型是在今年早些时候推出的o1模型的基础上开发的。

  OpenAI本次12日的活动第一天官宣了上线正式版o1,所谓满血o1。活动最后一天又有o3亮相,首尾都由介绍推理模型呼应,也算是一种精心设计。

  据介绍,这些模型使用OpenAI所称的“私人思维链”,模型会暂停检查其内部对话,并在响应之前提前计划,你可以称之为“模拟推理”(SR),即一种超越基本大型语言模型(llm)的人工智能形式。

  据了解,为了避免与英国电信运营商o2发生潜在的商标冲突,该公司将其最新的人工智能“推理”模型命名为“o3”而不是“o2”。

  直播中,奥特曼称o3是“一个非常、非常聪明的模型”。OpenAI的评估结果也显示,无论在软件工程、编写代码,还是竞赛数学、掌握人类博士级别的自然科学知识能力方面,o3都明显高出o1一筹。同时测试显示,o3在OpenAI实现通用人工智能(AGI)这一奋斗目标上取得了突破,最高的测试成绩达到了类人水平。

  根据OpenAI的说法,o3模型在ARC-AGI基准上获得了破纪录的分数,ARC-AGI基准是一种视觉推理基准,自2019年创建以来一直保持不败。在低计算场景中,o3得分为75.7%,而在高计算测试中,它达到了87.5%,与人类在85%阈值下的表现相当。

  OpenAI还报告说,o3在2024年美国数学邀请赛中得分为96.7%,只缺了一道题。该模型在包含研究生水平的生物、物理和化学问题的GPQA Diamond上也达到了87.7%。在EpochAI的前沿数学基准上,o3解决了25.2%的问题,而其他模型都没有超过2%。

  o3-mini版本包括自适应思考时间功能,提供低、中、高处理速度。该公司表示,更高的计算设置可以产生更好的结果。OpenAI报告说,在Codeforces基准测试中,o3-mini的性能超过了它的前身o1。

  但测试发现,表现完美的o3在计算投入方面并不那么“美丽”。

  ARC-AGI(通用人工智能抽象与推理语料库)发起者、Keras(用Python编写的高级神经网络API)之父弗朗索瓦·肖莱(Francois Chollet)在o3发布后公布了一篇测试报告。

  报告显示,o3在高计算量模式下获得了87.5%的分数,在低计算量模式下,性能是o1的3倍。成本方面,低计算量模式下,每个任务需要花费20美元,而在高计算量模式中每个任务需要数千美元。

  肖莱表示:“它非常昂贵,但并不只是‘蛮干’——这些能力是全新的领域,需要科学界的认真关注。”

  据悉,推理模型作为人工智能的核心技术之一,具备强大的数据处理和分析能力,其应用范围广泛,几乎覆盖了所有与智能化相关的领域。

  虽然o3的测评看上去表现惊艳,但OpenAI应该不会很快面向大众上线这款新的超级推理模型。

  据悉,o3和o3-mini并未正式发布,安全研究人员目前可以注册获取o3-mini的预览版,o3预览版也将在之后的某个时间推出,OpenAI没有给出具体时间。在直播的一开始,奥特曼也强调了此次并不是发布,只是宣布o3。他表示,计划在1月底发布o3-mini,然后再发布o3。

  奥特曼在直播中表示,在OpenAI正式发布新的推理模型之前,他更希望有一个联邦政府的测试框架,指导监控和减轻此类模型的风险。“应该有某种联邦测试框架,说明我们最感兴趣的是监控和缓解危害,类似于这里有一组测试,在你发布它之前,必须能够证明这种模型在这些方面是安全的。”

  值得一提的是,除了OpenAI,各家AI公司近期也纷纷发布推理模型。

  11月16日,月之暗面(Moonshot AI)Kimi推出新一代数学推理模型k0-math;11月20日,DeepSeek发布了首个推理模型DeepSeek-R1-Lite预览版;11月28日,阿里云通义团队发布全新AI推理模型QwQ-32B-Preview。

  在当地时间12月19日,谷歌也发布首个推理模型Gemini 2.0 Flash Thinking。它使用了类似o1模型的慢思维思考方式,可以深度可视化展示整个思维链过程,尤其是在执行数学、编程等复杂问题方面。

  相比o1,Gemini 2.0 Flash Thinking的最大差别是,让用户能看到一步一步推理的过程,更清晰、更透明地了解模型如何得出结论。它刚亮相就登上了Chatbot Arena大模型评估的榜首。不过,谷歌的这一新模型还处于实验性阶段,只是一个早期版本。

  北京商报综合报道

海量资讯、精准解读,尽在新浪财经APP

责任编辑:丁文武

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10