數分鐘內，Meta與谷歌旗下 AI 模型安全防護機制遭破解移除

　　多款軟件工具可去除Meta、谷歌等企業人工智能模型的安全防護機制，目前已有數千個篡改版本問世，原生管控約束均被剔除。

　　記者藉助代碼平台 GitHub 上的異端工具，在無專業硬件加持的情況下，不到十分鐘就破除了Meta llama 3.3 模型的安全防線。

　　原版模型拒絕作答的違規問題，篡改版本均可回應。

　　此番曝光進一步引發監管機構與人工智能企業的擔憂：隨着開源模型性能愈發強大，研發方設定的安全防護將愈發難以維繫。

　　芝加哥大學布斯商學院人工智能應用方向助理教授卡溫・埃塔亞賈夫表示：「以往只有專業資深人員才能破解安全防護，如今普通用戶也能輕鬆做到。」

　　研究人員稱，頂尖人工智能模型能力不斷精進，相關安全漏洞問題也愈發嚴峻。 Anthropic今年 4 月表示，其 Claude Mythos模型已發現主流操作系統與網頁瀏覽器普遍存在安全缺陷。

　　篡改模型肆意傳播，給各國政府和企業從研發端管控人工智能帶來阻礙。相關工具可隨意複製改寫，脫離原開發企業管控範圍。

　　各大人工智能實驗室投入巨資搭建安全防護屏障，防範模型遭濫用。但消融破解這類技術，能快速剝離開源模型的安全限制，用戶可隨意下載並二次修改模型。

　　該手段難以應用於Claude、ChatGPT 等閉源模型，因其底層代碼不對外公開。而開源模型通常只需半年至一年，性能就能追上頂尖閉源產品。

　　專業技術團體此前已可繞過高端閉源模型防護，如今零基礎普通網民也能輕易獲取網絡上的篡改模型。

　　開放人工智能研究中心在開源 GPT 模型中，採用剔除危險數據的數據集開展訓練。

　　埃塔亞賈夫對此提出異議，刪減危險內容會讓模型認知片面，無法識別惡意使用場景，單純剔除有害數據，並不能確保模型合規無害。

　　Alice實驗室向媒體披露相關結論前，並未提前告知Meta、谷歌以及 GitHub 平台。

　　谷歌回應稱，消融破解是所有開源模型共同面臨的技術難題，旗下開源模型上線前均經過嚴格內部安全測評，盡力規避各類違規風險場景。

　　GitHub 平台表示，平台嚴禁發布直接助力非法攻擊、惡意程序傳播的內容；但具備學習價值、能為網絡安全行業帶來正向作用的惡意程序研發類源代碼，不在封禁範疇。

　　Meta未對此作出回應。知情人士稱，企業會依據高級人工智能拓展框架，在開源模型發布前評估安全風險，存在重大災難性風險的版本，在未完善防控措施前不會對外公開。

海量資訊、精準解讀，盡在新浪財經APP

責任編輯：江學思

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

數分鐘內，Meta與谷歌旗下 AI 模型安全防護機制遭破解移除

熱議股票