智谱创始人唐杰：AI大模型“人类终极测试”能力正快速提升

　　新浪科技讯 1月10日下午消息，清华大学北京重点实验室、智谱AI发起的AGI-Next前沿峰会上，清华大学教授、智谱创始人唐杰指出，“2025年以来，AI大模型在人类终极测试（HLE）这一非常高难度智能评测基准中的表现（成绩）开始快速提升。”

　　唐杰指出，2020年，AI大模型还只能解决MMU、QA等基础问题；到2021-2022年，通过后训练开始具备数学推理（加减乘除）能力，补齐基础推理短板；2023-2024年，大模型从知识记忆升级至复杂推理，开始可应对研究生阶段问题及SWE bench真实编程任务，类似人类从小学到职场的能力成长过程；而在2025年，模型在人类终极测试中能力快速提升，该测试包含谷歌无法检索的极端冷门问题，需要模型具备强泛化能力。

　　“一直以来，我们都希望机器（AI）有泛化能力，人们教它一点点，它就能举一反三。”唐杰指出，虽然今天AI的泛化能力还有待大大提高，但智谱乃至于整个行业也正通过一系列手段来提高它。

　　2020年左右，业界基于Transformer架构，通过扩大数据量与算力，强化模型长时知识记忆能力，实现基础知识的直接调用（如回答“中国的首都是什么”）。到2022年左右，业界开始通过对齐与推理优化，强化复杂推理能力与意图理解，核心手段是持续扩展指令微调（SFT）与强化学习，依托大量人类反馈数据提升模型准确性。而到2025年，业绩开始尝试通过构建可验证环境，让机器自主探索、获取反馈数据实现自我成长并强化泛化能力，解决传统人类反馈数据噪音多、场景单一的问题。（文猛）

海量资讯、精准解读，尽在新浪财经APP

责任编辑：凌辰

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Tiger Brokers

智谱创始人唐杰：AI大模型“人类终极测试”能力正快速提升

Most Discussed