智谱创始人唐杰：AI大模型“人类终极测试”能力正快速提升

　　新浪科技讯 1月10日下午消息，清华大学北京重点实验室、智谱AI发起的AGI-Next前沿峰会上，清华大学教授、智谱创始人唐杰指出，“2025年以来，AI大模型在人类终极测试（HLE）这一非常高难度智能评测基准中的表现（成绩）开始快速提升。”

　　唐杰指出，2020年，AI大模型还只能解决MMU、QA等基础问题；到2021-2022年，通过后训练开始具备数学推理（加减乘除）能力，补齐基础推理短板；2023-2024年，大模型从知识记忆升级至复杂推理，开始可应对研究生阶段问题及SWE bench真实编程任务，类似人类从小学到职场的能力成长过程；而在2025年，模型在人类终极测试中能力快速提升，该测试包含谷歌无法检索的极端冷门问题，需要模型具备强泛化能力。

　　“一直以来，我们都希望机器（AI）有泛化能力，人们教它一点点，它就能举一反三。”唐杰指出，虽然今天AI的泛化能力还有待大大提高，但智谱乃至于整个行业也正通过一系列手段来提高它。

　　2020年左右，业界基于Transformer架构，通过扩大数据量与算力，强化模型长时知识记忆能力，实现基础知识的直接调用（如回答“中国的首都是什么”）。到2022年左右，业界开始通过对齐与推理优化，强化复杂推理能力与意图理解，核心手段是持续扩展指令微调（SFT）与强化学习，依托大量人类反馈数据提升模型准确性。而到2025年，业绩开始尝试通过构建可验证环境，让机器自主探索、获取反馈数据实现自我成长并强化泛化能力，解决传统人类反馈数据噪音多、场景单一的问题。（文猛）

海量资讯、精准解读，尽在新浪财经APP

责任编辑：凌辰

免责声明：投资有风险，本文并非投资建议，以上内容不应被视为任何金融产品的购买或出售要约、建议或邀请，作者或其他用户的任何相关讨论、评论或帖子也不应被视为此类内容。本文仅供一般参考，不考虑您的个人投资目标、财务状况或需求。TTM对信息的准确性和完整性不承担任何责任或保证，投资者应自行研究并在投资前寻求专业建议。

老虎证券

智谱创始人唐杰：AI大模型“人类终极测试”能力正快速提升

热议股票