智谱创始人唐杰:AI大模型“人类终极测试”能力正快速提升

新浪科技
01/10

  新浪科技讯 1月10日下午消息,清华大学北京重点实验室、智谱AI发起的AGI-Next前沿峰会上,清华大学教授、智谱创始人唐杰指出,“2025年以来,AI大模型在人类终极测试(HLE)这一非常高难度智能评测基准中的表现(成绩)开始快速提升。”

  唐杰指出,2020年,AI大模型还只能解决MMU、QA等基础问题;到2021-2022年,通过后训练开始具备数学推理(加减乘除)能力,补齐基础推理短板;2023-2024年,大模型从知识记忆升级至复杂推理,开始可应对研究生阶段问题及SWE bench真实编程任务,类似人类从小学到职场的能力成长过程;而在2025年,模型在人类终极测试中能力快速提升,该测试包含谷歌无法检索的极端冷门问题,需要模型具备强泛化能力。

  “一直以来,我们都希望机器(AI)有泛化能力,人们教它一点点,它就能举一反三。”唐杰指出,虽然今天AI的泛化能力还有待大大提高,但智谱乃至于整个行业也正通过一系列手段来提高它。

  2020年左右,业界基于Transformer架构,通过扩大数据量与算力,强化模型长时知识记忆能力,实现基础知识的直接调用(如回答“中国的首都是什么”)。到2022年左右,业界开始通过对齐与推理优化,强化复杂推理能力与意图理解,核心手段是持续扩展指令微调(SFT)与强化学习,依托大量人类反馈数据提升模型准确性。而到2025年,业绩开始尝试通过构建可验证环境,让机器自主探索、获取反馈数据实现自我成长并强化泛化能力,解决传统人类反馈数据噪音多、场景单一的问题。(文猛)

海量资讯、精准解读,尽在新浪财经APP

责任编辑:凌辰

免责声明:投资有风险,本文并非投资建议,以上内容不应被视为任何金融产品的购买或出售要约、建议或邀请,作者或其他用户的任何相关讨论、评论或帖子也不应被视为此类内容。本文仅供一般参考,不考虑您的个人投资目标、财务状况或需求。TTM对信息的准确性和完整性不承担任何责任或保证,投资者应自行研究并在投资前寻求专业建议。

热议股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10