「AI教父」本希奧宣佈開發「誠信」系統，防範智能體欺騙人類

IT之家 6 月 4 日消息，金融時報（FT）昨日（6 月 3 日）發布博文，報道稱「AI 教父」約書亞・本希奧（Yoshua Bengio）成立 LawZero 非營利組織，致力於開發「誠實」的 AI 系統，用以識別「流氓」AI 系統。

IT之家簡要介紹下本希奧，他是來自蒙特利爾大學的教授，因與 Geoffrey Hinton、Yann LeCun 共享 2018 年圖靈獎（被視為計算機領域的諾貝爾獎），而被譽為「AI 教父」。

LawZero 的使命是開發一種「誠實」的 AI，專門監控那些無需人類干預即可執行任務的 AI 智能體，防止它們表現出欺騙或自我保護行為，例如試圖阻止人類關閉系統。

本希奧正在研發的系統名為 Scientist AI，旨在成為 AI 智能體的「守衛」。他將現有的 AI 智能體比作「演員」，它們模仿人類、取悅用戶，而 Scientist AI 則更像一位「心理學家」，能夠理解並預測不良行為。

該系統不會給出確切答案，而是以概率形式評估答案的正確性，體現出一種「謙遜」態度。它還能預測 AI 智能體行為導致危害的概率，若概率超過閾值，系統將阻止相關行動。

LawZero 的初始支持者包括 AI 安全機構 Future of Life Institute、Skype 創始工程師 Jaan Tallinn 以及前谷歌 CEO Eric Schmidt 創立的 Schmidt Sciences。LawZero 初始資金約 3000 萬美元，擁有十餘名研究人員，本希奧擔任主席。

本希奧表示，該項目第一步是驗證該概念的方法論是否可行，隨後說服企業或政府支持更大規模、更強大的版本。他計劃從開源 AI 模型入手訓練系統，並呼籲投入更多資源，確保「守衛」AI 與前沿 AI 同步發展。他警告，若 AI 智能體能在無人類監督下完成更長任務序列，可能引發「嚴重」破壞。

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

「AI教父」本希奧宣佈開發「誠信」系統，防範智能體欺騙人類

熱議股票