人類要小心了!OpenAI已全面評估AI對各行各業的工作替代

華爾街見聞
昨天

該研究覆蓋了在美國GDP中佔比較大的九個商業領域,涉及44個職業中的1300項工作任務。研究發現,AI模型執行職業任務的能力幾乎已與人類專業人士相當。前OpenAI政策總監、Anthropic聯合創始人Jack Clark認為,GDPval的出現,為評估AI的廣泛經濟影響提供了一個關鍵基準,其意義類似於SWE-Bench之於編程領域。

一項來自OpenAI的最新評估顯示,AI在執行具有經濟價值的工作任務方面正迅速追趕,甚至逼近人類專業人員的水平。

據報道,OpenAI於週四發佈了一款名為GDPval-v0的全新評估工具。該工具旨在衡量AI模型在完成法律文書、工程藍圖和護理計劃等「真實工作交付成果」時的表現。

該研究覆蓋了在美國國內生產總值(GDP)中佔比較大的九個商業領域,涉及44個職業中的約1300項具體工作任務。結果顯示,當前最頂尖的AI模型在執行許多職業任務時,其能力已與人類專業人士相當,並且這種能力的提升速度正在加快。

在GDPval-v0發佈後,前OpenAI政策總監、Anthropic聯合創始人Jack Clark在其最新的博文《Eval the world economy; singularity economics; and Swiss sovereign AI》中,全面地評估了GDPval的研究過程和結果。

GDPval或成衡量AI經濟價值的全新標尺

據文章介紹,GDPval基準測試涵蓋了1230個專業任務,涵蓋科技服務、金融保險、醫療保健、信息業、製造業等行業,每一個任務都由平均擁有超過14年行業經驗的資深專業人士精心設計和審核。

Clark指出,這份清單幾乎囊括了現代經濟中所有關鍵的知識密集型崗位,表明AI公司正有條不紊地測試其系統在經濟各個「生態位」的適應能力。

文章還表示,該基準測試的另一個優秀特性是它涉及多種回答格式,並試圖處理現實世界固有的複雜性。

為了模擬真實世界工作的複雜性,GDPval的任務並非簡單的文本問答,而是帶有參考文件和上下文,要求AI交付的成果也多種多樣,包括文檔、幻燈片、圖表和電子表格等。

評估結果直接量化了AI的能力邊界。數據顯示,Claude Opus 4.1在與人類專家的比較中,取得了47.6%的「勝利或平局」率,排名第一。緊隨其後的是GPT-5-high(38.8%)和o3 high(34.1%)。

這些數據表明,AI在處理複雜的專業知識工作時,其質量已達到甚至在某些情況下超過了經驗豐富的人類。

Clark認為,GDPval的出現,為評估AI的廣泛經濟影響提供了一個關鍵基準,其意義類似於SWE-Bench之於編程領域。

公開資料顯示,SWE-Bench於2024年11月推出,旨在評估AI模型的編程能力。該基準測試採用了從12個不同Python項目的GitHub公開倉庫中提取的2000多個真實編程問題作為評測依據。

以下是Clark的博文節選,由AI工具輔助翻譯:

評估世界經濟;奇點經濟學;以及瑞士主權AI

作者:Jack Clark

OpenAI構建了一個評估系統,對廣泛經濟的意義就如同SWE-Bench對代碼的意義: …GDPval是一個非常好的基準測試,具有極其重要的意義…

OpenAI構建併發布了GDPval,這是一個製作精良的基準測試,用於測試AI系統在現實世界經濟中人們從事的各種任務上的表現。就評估而言,GDPval對廣泛的現實世界經濟影響的意義,可能相當於SWE-Bench對編程影響的意義——這是一件大事!

它是什麼:GDPval"衡量模型在直接來自現實世界的任務上的表現,這些任務涉及各行各業經驗豐富專業人士的知識工作,為模型在經濟價值任務上的表現提供更清晰的畫面。"

該基準測試涵蓋9個行業的44個職業,包括1,230個專業任務,"每個任務都由平均擁有超過14年經驗的經驗豐富專業人士精心製作和審核"。數據集"包括每個職業的30個經過全面審核的任務(完整集),以及我們開源黃金集中每個職業的5個任務"。

該基準測試的另一個優秀特性是它涉及多種回答格式,並試圖處理現實世界固有的複雜性。他們寫道:"GDPval的任務不是簡單的文本提示。它們帶有參考文件和上下文,預期的交付成果涵蓋文檔、幻燈片、圖表、電子表格和多媒體。這種現實性使GDPval成為模型如何支持專業人士的更現實測試。"

"為了評估模型在GDPval任務上的表現,我們依靠專家'評分員'——一羣來自數據集中代表的相同職業的經驗專業人士。這些評分員盲目比較模型生成的交付成果與任務編寫者產生的成果(不知道哪個是AI生成的,哪個是人類生成的),並提供批評和排名。評分員隨後對人類和AI交付成果進行排名,並將每個AI交付成果分類為'更好'、'同樣好'或'不如'彼此,"作者寫道。

結果:"我們發現今天最好的前沿模型已經接近行業專家產生的工作質量,"作者寫道。Claude Opus 4.1排名第一,與人類工作相比的總體勝利或平局率為47.6%,其次是GPT-5-high的38.8%,以及o3 high的34.1%。

更快更便宜:更重要的是,"我們發現前沿模型完成GDPval任務的速度比行業專家快約100倍,成本便宜約100倍。"

GDPval包含哪些類型的工作?

房地產和租賃業:禮賓員;物業、房地產和社區協會經理;房地產銷售代理;房地產經紀人;櫃檯和租賃店員。

政府部門:娛樂工作者;合規官員;警察和偵探一線主管;行政服務經理;兒童、家庭和學校社會工作者。

製造業:機械工程師;工業工程師;採購員和採購代理;運輸、接收和庫存店員;生產和操作工人一線主管。

專業、科學和技術服務:軟件開發人員;律師;會計師和審計師;計算機和信息系統經理;項目管理專家。

醫療保健和社會援助:註冊護士;執業護士;醫療和健康服務經理;辦公室和行政支持工人一線主管;醫療祕書和行政助理。

金融和保險:客戶服務代表;金融和投資分析師;財務經理;個人理財顧問;證券、商品和金融服務銷售代理。

零售貿易:藥劑師;零售銷售工人一線主管;總經理和運營經理;私人偵探和調查員。

批發貿易:銷售經理;訂單店員;非零售銷售工人一線主管;批發和製造銷售代表,不包括技術和科學產品;批發和製造銷售代表,技術和科學產品。

信息業:音頻和視頻技術員;製片人和導演;新聞分析師、記者和新聞工作者;電影和視頻編輯;編輯。

為什麼這很重要——AI公司正在構建系統進入經濟的每一個部分:此時我希望讀者想象我站在華盛頓特區中心,舉着一個巨大的標牌,上面寫着:AI公司正在構建基準測試,旨在測試他們的系統在經濟中各種工作上的表現——而且它們已經非常出色了!

這並不正常!

我們正在通過生態有效的基準測試,對系統在極其廣泛的行為範圍內進行測試,這些基準最終告訴我們這些系統能夠多好地融入世界上約44個不同的"生態經濟生態位",我們發現它們已經非常接近與人類表現相同的水平——這還只是基於今天的模型。很快,它們在這些任務上將超越許多人類。然後會怎樣?什麼都不會發生?不!經濟將發生極其奇異的變化!

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10