
新浪科技訊 1月10日下午消息,清華大學北京重點實驗室、智譜AI發起的AGI-Next前沿峯會上,清華大學教授、智譜創始人唐傑指出,「2025年以來,AI大模型在人類終極測試(HLE)這一非常高難度智能評測基準中的表現(成績)開始快速提升。」
唐傑指出,2020年,AI大模型還只能解決MMU、QA等基礎問題;到2021-2022年,通過後訓練開始具備數學推理(加減乘除)能力,補齊基礎推理短板;2023-2024年,大模型從知識記憶升級至複雜推理,開始可應對研究生階段問題及SWE bench真實編程任務,類似人類從小學到職場的能力成長過程;而在2025年,模型在人類終極測試中能力快速提升,該測試包含谷歌無法檢索的極端冷門問題,需要模型具備強泛化能力。
「一直以來,我們都希望機器(AI)有泛化能力,人們教它一點點,它就能舉一反三。」唐傑指出,雖然今天AI的泛化能力還有待大大提高,但智譜乃至於整個行業也正通過一系列手段來提高它。
2020年左右,業界基於Transformer架構,通過擴大數據量與算力,強化模型長時知識記憶能力,實現基礎知識的直接調用(如回答「中國的首都是什麼」)。到2022年左右,業界開始通過對齊與推理優化,強化複雜推理能力與意圖理解,核心手段是持續擴展指令微調(SFT)與強化學習,依託大量人類反饋數據提升模型準確性。而到2025年,業績開始嘗試通過構建可驗證環境,讓機器自主探索、獲取反饋數據實現自我成長並強化泛化能力,解決傳統人類反饋數據噪音多、場景單一的問題。(文猛)
責任編輯:凌辰