人類要小心了！OpenAI已全面評估AI對各行各業的工作替代

華爾街見聞

2025/09/30

該研究覆蓋了在美國GDP中佔比較大的九個商業領域，涉及44個職業中的1300項工作任務。研究發現，AI模型執行職業任務的能力幾乎已與人類專業人士相當。前OpenAI政策總監、Anthropic聯合創始人Jack Clark認為，GDPval的出現，為評估AI的廣泛經濟影響提供了一個關鍵基準，其意義類似於SWE-Bench之於編程領域。一項來自OpenAI的最新評估顯示，AI在執行具有經濟價值的工作...

網頁鏈接

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

熱議股票

{"basename":"/hant","ssrTDKData":{"titleTemplate":"%s - 老虎證券","title":"澳洲华人首选美澳港股一站式交易平台 | 老虎证券","description":"澳、美、港、A股、ETF、期权一站式在线交易，超低佣金，新手也能轻松开启投资。在老虎证券， 1 美元起投资美股，24/5 无时差交易美股，澳大利亚华人信赖的在线炒股平台。","keywords":"老虎证券,老虎证券澳洲,老虎证券股票,老虎证券开户,老虎证券app,tigertrade老虎证券,股票,asx美股,炒股,券商,澳洲股票交易,澳大利亚炒股","social":{"ogDescription":"澳、美、港、A股、ETF、期权一站式在线交易，超低佣金，新手也能轻松开启投资。在老虎证券， 1 美元起投资美股，24/5 无时差交易美股，澳大利亚华人信赖的在线炒股平台。","ogImage":"https://c1.itigergrowtha.com/portal5/static/media/og-logo.be62fbe1.png","ogUrl":"https://www.itiger.com/hant/news/2571157391"},"companyName":"老虎證券"},"pageData":{"isMobile":false,"isTiger":false,"isTTM":true,"region":"AUS","license":"TBAU","edition":"fundamental"},"isCrawlerRequest":true,"__swrFallback__":{"@#url:\"https://stock-news.skytigris.cn/v3/news\",params:#id:\"2571157391\",edition:\"fundamental\",auth_exemption:1,,,undefined,":{"share":"https://ttm.financial/m/news/2571157391?lang=zh_TW&edition=fundamental","thumbnail":"https://static.tigerbbs.com/8e1cc193bebd7a244a3ad519d4d5e79b","is_english":false,"pubTime":"2025-09-30 14:12","share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","id":"2571157391","market":"sh","top_or_hot":-1,"title":"人類要小心了！OpenAI已全面評估AI對各行各業的工作替代","media":"華爾街見聞","content":"<div>\n<p>該研究覆蓋了在美國GDP中佔比較大的九個商業領域，涉及44個職業中的1300項工作任務。研究發現，AI模型執行職業任務的能力幾乎已與人類專業人士相當。前OpenAI政策總監、Anthropic聯合創始人Jack Clark認為，GDPval的出現，為評估AI的廣泛經濟影響提供了一個關鍵基準，其意義類似於SWE-Bench之於編程領域。一項來自OpenAI的最新評估顯示，AI在執行具有經濟價值的工作...</p>\n\n<a href=\"https://wallstreetcn.com/articles/3756519\">網頁鏈接</a>\n\n</div>\n","source":null,"html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>人類要小心了！OpenAI已全面評估AI對各行各業的工作替代</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 12.5px; color: #7E829C; margin: 0;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n人類要小心了！OpenAI已全面評估AI對各行各業的工作替代\n</h2>\n<h4 class=\"meta\">\n<a class=\"head\" href=\"https://laohu8.com/wemedia/1084101182\">\n\n<div class=\"h-thumb\" style=\"background-image:url(https://static.tigerbbs.com/66809d1f5c2e43e2bdf15820c6d6897e);background-size:cover;\"></div>\n\n<div class=\"h-content\">\n<p class=\"h-name\">華爾街見聞 </p>\n<p class=\"h-time smaller\">2025-09-30 14:12</p>\n</div>\n</a>\n</h4>\n</header>\n<article>\n<div>\n<p>該研究覆蓋了在美國GDP中佔比較大的九個商業領域，涉及44個職業中的1300項工作任務。研究發現，AI模型執行職業任務的能力幾乎已與人類專業人士相當。前OpenAI政策總監、Anthropic聯合創始人Jack Clark認為，GDPval的出現，為評估AI的廣泛經濟影響提供了一個關鍵基準，其意義類似於SWE-Bench之於編程領域。一項來自OpenAI的最新評估顯示，AI在執行具有經濟價值的工作...</p>\n\n<a href=\"https://wallstreetcn.com/articles/3756519\">網頁鏈接</a>\n\n</div>\n\n</article>\n</div>\n</body>\n</html>\n","isBrief":false,"type":0,"news_type":1,"symbol":"BK4023","symbol_name":"應用軟件","start_time":0,"source_url":"https://wallstreetcn.com/articles/3756519","article_id":"2571157391","we_media_id":"1084101182","thumbnails":["https://static.tigerbbs.com/8e1cc193bebd7a244a3ad519d4d5e79b"],"rights":{"source":null,"url":"https://wallstreetcn.com/articles/3756519","rn_cache_url":null,"directOrigin":true},"url":"https://stock-news.laohu8.com/highlight/detail?id=2571157391","pubTimestamp":1759212738,"columns":[],"sourceInfo":null,"weMediaInfo":{"media_name":"華爾街見聞","introduction":"追踪全球财经热点，精选影响您财富的资讯，投资理财必备神器！","home_visible":1,"id":"1084101182","head_image":"https://static.tigerbbs.com/66809d1f5c2e43e2bdf15820c6d6897e"},"summary":"該研究覆蓋了在美國GDP中佔比較大的九個商業領域，涉及44個職業中的1300項工作任務。研究發現，AI模型執行職業任務的能力幾乎已與人類專業人士相當。前OpenAI政策總監、Anthropic聯合創始人Jack Clark認為，GDPval的出現，為評估AI的廣泛經濟影響提供了一個關鍵基準，其意義類似於SWE-Bench之於編程領域。","collect":0,"end_time":0,"defaultTopTitle":"","property":[],"viewcount":null,"language":"zh","relate_stocks":{"BK4023":"应用软件","BK4585":"ETF&股票定投概念","BK4587":"ChatGPT概念","BK4543":"AI","BK4528":"SaaS概念","BK4551":"寇图资本持仓","BK4213":"石油与天然气的勘探与生产","BK4588":"碎股","GDP":"古德里奇"},"translate_title":"Humans beware! OpenAI has comprehensively evaluated the replacement of jobs by AI in various industries","themeId":"","isJumpTheme":false,"ttsUrl":null,"symbols_score_info":{"GDP":1},"content_text":"該研究覆蓋了在美國GDP中佔比較大的九個商業領域，涉及44個職業中的1300項工作任務。研究發現，AI模型執行職業任務的能力幾乎已與人類專業人士相當。前OpenAI政策總監、Anthropic聯合創始人Jack Clark認為，GDPval的出現，為評估AI的廣泛經濟影響提供了一個關鍵基準，其意義類似於SWE-Bench之於編程領域。一項來自OpenAI的最新評估顯示，AI在執行具有經濟價值的工作任務方面正迅速追趕，甚至逼近人類專業人員的水平。據報道，OpenAI於周四發布了一款名為GDPval-v0的全新評估工具。該工具旨在衡量AI模型在完成法律文書、工程藍圖和護理計劃等「真實工作交付成果」時的表現。該研究覆蓋了在美國國內生產總值（GDP）中佔比較大的九個商業領域，涉及44個職業中的約1300項具體工作任務。結果顯示，當前最頂尖的AI模型在執行許多職業任務時，其能力已與人類專業人士相當，並且這種能力的提升速度正在加快。在GDPval-v0發布後，前OpenAI政策總監、Anthropic聯合創始人Jack Clark在其最新的博文《Eval the world economy; singularity economics; and Swiss sovereign AI》中，全面地評估了GDPval的研究過程和結果。GDPval或成衡量AI經濟價值的全新標尺據文章介紹，GDPval基準測試涵蓋了1230個專業任務，涵蓋科技服務、金融保險、醫療保健、信息業、製造業等行業，每一個任務都由平均擁有超過14年行業經驗的資深專業人士精心設計和審核。Clark指出，這份清單幾乎囊括了現代經濟中所有關鍵的知識密集型崗位，表明AI公司正有條不紊地測試其系統在經濟各個「生態位」的適應能力。文章還表示，該基準測試的另一個優秀特性是它涉及多種回答格式，並試圖處理現實世界固有的複雜性。為了模擬真實世界工作的複雜性，GDPval的任務並非簡單的文本問答，而是帶有參考文件和上下文，要求AI交付的成果也多種多樣，包括文檔、幻燈片、圖表和電子表格等。評估結果直接量化了AI的能力邊界。數據顯示，Claude Opus 4.1在與人類專家的比較中，取得了47.6%的「勝利或平局」率，排名第一。緊隨其後的是GPT-5-high（38.8%）和o3 high（34.1%）。這些數據表明，AI在處理複雜的專業知識工作時，其質量已達到甚至在某些情況下超過了經驗豐富的人類。Clark認為，GDPval的出現，為評估AI的廣泛經濟影響提供了一個關鍵基準，其意義類似於SWE-Bench之於編程領域。公開資料顯示，SWE-Bench於2024年11月推出，旨在評估AI模型的編程能力。該基準測試採用了從12個不同Python項目的GitHub公開倉庫中提取的2000多個真實編程問題作為評測依據。以下是Clark的博文節選，由AI工具輔助翻譯：評估世界經濟；奇點經濟學；以及瑞士主權AI作者：Jack ClarkOpenAI構建了一個評估系統，對廣泛經濟的意義就如同SWE-Bench對代碼的意義： …GDPval是一個非常好的基準測試，具有極其重要的意義…OpenAI構建並發布了GDPval，這是一個製作精良的基準測試，用於測試AI系統在現實世界經濟中人們從事的各種任務上的表現。就評估而言，GDPval對廣泛的現實世界經濟影響的意義，可能相當於SWE-Bench對編程影響的意義——這是一件大事！它是什麼：GDPval\"衡量模型在直接來自現實世界的任務上的表現，這些任務涉及各行各業經驗豐富專業人士的知識工作，為模型在經濟價值任務上的表現提供更清晰的畫面。\"該基準測試涵蓋9個行業的44個職業，包括1,230個專業任務，\"每個任務都由平均擁有超過14年經驗的經驗豐富專業人士精心製作和審核\"。數據集\"包括每個職業的30個經過全面審核的任務（完整集），以及我們開源黃金集中每個職業的5個任務\"。該基準測試的另一個優秀特性是它涉及多種回答格式，並試圖處理現實世界固有的複雜性。他們寫道：\"GDPval的任務不是簡單的文本提示。它們帶有參考文件和上下文，預期的交付成果涵蓋文檔、幻燈片、圖表、電子表格和多媒體。這種現實性使GDPval成為模型如何支持專業人士的更現實測試。\"\"為了評估模型在GDPval任務上的表現，我們依靠專家'評分員'——一群來自數據集中代表的相同職業的經驗專業人士。這些評分員盲目比較模型生成的交付成果與任務編寫者產生的成果（不知道哪個是AI生成的，哪個是人類生成的），並提供批評和排名。評分員隨後對人類和AI交付成果進行排名，並將每個AI交付成果分類為'更好'、'同樣好'或'不如'彼此，\"作者寫道。結果：\"我們發現今天最好的前沿模型已經接近行業專家產生的工作質量，\"作者寫道。Claude Opus 4.1排名第一，與人類工作相比的總體勝利或平局率為47.6%，其次是GPT-5-high的38.8%，以及o3 high的34.1%。更快更便宜：更重要的是，\"我們發現前沿模型完成GDPval任務的速度比行業專家快約100倍，成本便宜約100倍。\"GDPval包含哪些類型的工作？• 房地產和租賃業：禮賓員；物業、房地產和社區協會經理；房地產銷售代理；房地產經紀人；櫃台和租賃店員。• 政府部門：娛樂工作者；合規官員；警察和偵探一線主管；行政服務經理；兒童、家庭和學校社會工作者。• 製造業：機械工程師；工業工程師；採購員和採購代理；運輸、接收和庫存店員；生產和操作工人一線主管。• 專業、科學和技術服務：軟件開發人員；律師；會計師和審計師；計算機和信息系統經理；項目管理專家。• 醫療保健和社會援助：註冊護士；執業護士；醫療和健康服務經理；辦公室和行政支持工人一線主管；醫療秘書和行政助理。• 金融和保險：客户服務代表；金融和投資分析師；財務經理；個人理財顧問；證券、商品和金融服務銷售代理。• 零售貿易：藥劑師；零售銷售工人一線主管；總經理和運營經理；私人偵探和調查員。• 批發貿易：銷售經理；訂單店員；非零售銷售工人一線主管；批發和製造銷售代表，不包括技術和科學產品；批發和製造銷售代表，技術和科學產品。• 信息業：音頻和視頻技術員；製片人和導演；新聞分析師、記者和新聞工作者；電影和視頻編輯；編輯。為什麼這很重要——AI公司正在構建系統進入經濟的每一個部分：此時我希望讀者想象我站在華盛頓特區中心，舉着一個巨大的標牌，上面寫着：AI公司正在構建基準測試，旨在測試他們的系統在經濟中各種工作上的表現——而且它們已經非常出色了！這並不正常！我們正在通過生態有效的基準測試，對系統在極其廣泛的行為範圍內進行測試，這些基準最終告訴我們這些系統能夠多好地融入世界上約44個不同的\"生態經濟生態位\"，我們發現它們已經非常接近與人類表現相同的水平——這還只是基於今天的模型。很快，它們在這些任務上將超越許多人類。然後會怎樣？什麼都不會發生？不！經濟將發生極其奇異的變化！","kind":"highlight","is_publish_news":false,"is_publish_highlight":true,"is_publish_live":false,"is_publish_wemedia":null,"editions":null,"column":"","sentiment":"0","news_tag":"","news_rank":0,"symbols":[],"gpt_button":0,"need_auth":false,"code":"91000000","status":"200"}}}