数分钟内,Meta与谷歌旗下 AI 模型安全防护机制遭破解移除

环球市场播报
Yesterday

  多款软件工具可去除Meta谷歌等企业人工智能模型的安全防护机制,目前已有数千个篡改版本问世,原生管控约束均被剔除。

  记者借助代码平台 GitHub 上的异端工具,在无专业硬件加持的情况下,不到十分钟就破除了Meta llama 3.3 模型的安全防线。

  原版模型拒绝作答的违规问题,篡改版本均可回应。

  此番曝光进一步引发监管机构与人工智能企业的担忧:随着开源模型性能愈发强大,研发方设置的安全防护将愈发难以维系。

  芝加哥大学布斯商学院人工智能应用方向助理教授卡温・埃塔亚贾夫表示:“以往只有专业资深人员才能破解安全防护,如今普通用户也能轻松做到。”

  研究人员称,顶尖人工智能模型能力不断精进,相关安全漏洞问题也愈发严峻。 Anthropic今年 4 月表示,其 Claude Mythos模型已发现主流操作系统与网页浏览器普遍存在安全缺陷。

  篡改模型肆意传播,给各国政府和企业从研发端管控人工智能带来阻碍。相关工具可随意复制改写,脱离原开发企业管控范围。

  各大人工智能实验室投入巨资搭建安全防护屏障,防范模型遭滥用。但消融破解这类技术,能快速剥离开源模型的安全限制,用户可随意下载并二次修改模型。

  该手段难以应用于Claude、ChatGPT 等闭源模型,因其底层代码不对外公开。而开源模型通常只需半年至一年,性能就能追上顶尖闭源产品。

  专业技术团体此前已可绕过高端闭源模型防护,如今零基础普通网民也能轻易获取网络上的篡改模型。

  开放人工智能研究中心在开源 GPT 模型中,采用剔除危险数据的数据集开展训练。

  埃塔亚贾夫对此提出异议,删减危险内容会让模型认知片面,无法识别恶意使用场景,单纯剔除有害数据,并不能确保模型合规无害。

  Alice实验室向媒体披露相关结论前,并未提前告知Meta、谷歌以及 GitHub 平台。

  谷歌回应称,消融破解是所有开源模型共同面临的技术难题,旗下开源模型上线前均经过严格内部安全测评,尽力规避各类违规风险场景。

  GitHub 平台表示,平台严禁发布直接助力非法攻击、恶意程序传播的内容;但具备学习价值、能为网络安全行业带来正向作用的恶意程序研发类源代码,不在封禁范畴。

  Meta未对此作出回应。知情人士称,企业会依据高级人工智能拓展框架,在开源模型发布前评估安全风险,存在重大灾难性风险的版本,在未完善防控措施前不会对外公开。

海量资讯、精准解读,尽在新浪财经APP

责任编辑:江学思

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10