多款軟件工具可去除Meta、谷歌等企業人工智能模型的安全防護機制,目前已有數千個篡改版本問世,原生管控約束均被剔除。
記者藉助代碼平台 GitHub 上的異端工具,在無專業硬件加持的情況下,不到十分鐘就破除了Meta llama 3.3 模型的安全防線。
原版模型拒絕作答的違規問題,篡改版本均可回應。
此番曝光進一步引發監管機構與人工智能企業的擔憂:隨着開源模型性能愈發強大,研發方設定的安全防護將愈發難以維繫。
芝加哥大學布斯商學院人工智能應用方向助理教授卡溫・埃塔亞賈夫表示:「以往只有專業資深人員才能破解安全防護,如今普通用戶也能輕鬆做到。」
研究人員稱,頂尖人工智能模型能力不斷精進,相關安全漏洞問題也愈發嚴峻。 Anthropic今年 4 月表示,其 Claude Mythos模型已發現主流操作系統與網頁瀏覽器普遍存在安全缺陷。
篡改模型肆意傳播,給各國政府和企業從研發端管控人工智能帶來阻礙。相關工具可隨意複製改寫,脫離原開發企業管控範圍。
各大人工智能實驗室投入巨資搭建安全防護屏障,防範模型遭濫用。但消融破解這類技術,能快速剝離開源模型的安全限制,用戶可隨意下載並二次修改模型。
該手段難以應用於Claude、ChatGPT 等閉源模型,因其底層代碼不對外公開。而開源模型通常只需半年至一年,性能就能追上頂尖閉源產品。
專業技術團體此前已可繞過高端閉源模型防護,如今零基礎普通網民也能輕易獲取網絡上的篡改模型。
開放人工智能研究中心在開源 GPT 模型中,採用剔除危險數據的數據集開展訓練。
埃塔亞賈夫對此提出異議,刪減危險內容會讓模型認知片面,無法識別惡意使用場景,單純剔除有害數據,並不能確保模型合規無害。
Alice實驗室向媒體披露相關結論前,並未提前告知Meta、谷歌以及 GitHub 平台。
谷歌回應稱,消融破解是所有開源模型共同面臨的技術難題,旗下開源模型上線前均經過嚴格內部安全測評,盡力規避各類違規風險場景。
GitHub 平台表示,平台嚴禁發布直接助力非法攻擊、惡意程序傳播的內容;但具備學習價值、能為網絡安全行業帶來正向作用的惡意程序研發類源代碼,不在封禁範疇。
Meta未對此作出回應。知情人士稱,企業會依據高級人工智能拓展框架,在開源模型發布前評估安全風險,存在重大災難性風險的版本,在未完善防控措施前不會對外公開。
責任編輯:江學思