炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!
(來源:DeepTech深科技)
近年來,人工智能工具在蛋白質設計領域廣泛普及。基於蛋白質序列與結構生成模型的工具,能夠在無數組合中挑出最有潛力的變體,極大地提高了蛋白工程的產出效率。
但就像在其他領域一樣,人工智能在生物科學領域的應用也是一柄雙刃劍。它既可以幫科學家設計新的蛋白質結構,也可以被用來開發有毒蛋白質。
近日,微軟和多家公司、高校、研究機構組成的聯合團隊在生物科學領域發現了一個重大的「零日漏洞」。他們利用開源的人工智能蛋白質設計工具,基於 72 種已知危險蛋白,模擬生成了 7 萬多種原始有害蛋白質的變體,並將它們放入 4 種現有的生物安全篩查系統中。

(來源:論文)
結果顯示,篩選系統會漏掉大量重新設計的有毒蛋白質變體(約 30%-70%),而這些系統是許多 DNA 合成公司目前正在使用的。
這意味着,面對人工智能的進步,生物技術領域的安全保障措施存在巨大漏洞。網絡生物安全,已然成為一個亟待解決的挑戰。
針對這個「零日漏洞」,研究團隊已經開發出了「補丁」,多家 DNA 合成公司已經應用到了自家的篩查系統中,將漏篩率降低到了平均 3% 的水平。
這項成果以論文的形式發表在《科學》雜誌上。聯合團隊的成員來自微軟、國際生物防護和生物安全科學倡議、Twist Bioscience 公司、Integrated DNA Technologies 公司、Aclid 公司和英國伯明翰大學。
微軟首席科學官兼項目負責人埃裏克·霍維茨(Eric Horvitz)介紹稱,該項目有兩個探索目標:一是「最新的人工智能蛋白質設計工具是否可以用來重新設計有毒蛋白質,以保留其結構和潛在的功能,同時逃避當前篩選工具的檢測」;二是「我們能否設計出方法並進行系統研究,使我們能夠與利益相關者快速、安靜地合作,更新或修補這些篩選工具,使其更能抵禦人工智能的攻擊。」
在探索過程中,研究團隊採取了一種紅隊演練的對抗性試驗策略。這個概念來自網絡安全領域。研究團隊扮演了「攻擊者」的角色,主動尋找並利用現有系統的弱點,其最終目的是在這些弱點被真正的惡意行為者利用之前,先行一步進行修復。
圖 | 紅隊演練的流程(來源:論文)
以 AlphaFold2 等工具為例,人工智能早已在生命科學領域發展壯大了。通過學習數百萬種已知蛋白質的序列、結構和功能數據,人工智能輔助蛋白質設計模型能夠設計出自然界中從未存在過的全新蛋白質。
往好了看,科學家可以用它們設計出精準靶向癌細胞的抗體藥物,或者能夠中和病毒的治療性蛋白,還有高效催化化學反應的酶,用於生產可持續的生物燃料和材料。
但這些工具有很多都是開源的,放到別有用心的人手裏,同樣可能被用於增強病原體的毒性或設計全新的生物毒素。
由此引發的核心威脅並不是複製已知的病毒,現有的生物安全篩查系統對已知威脅已有較好的防禦能力。真正的威脅在於,人工智能能夠非常高效地對有害蛋白質進行修改。
人工智能可以在保持蛋白質關鍵三維結構(決定其生物學功能)基本不變的前提下,改變其底層的氨基酸序列(由 DNA 序列編碼)。其結果是產生一種功能上與原始毒素類似,但在基因序列上卻截然不同的新型分子。
設計完成後,在將數字化的蛋白質設計轉化為現實世界的生物實體的過程中,還需要進行 DNA 合成。許多定製化 DNA 合成服務的公司,如 Twist Bioscience,都會通過生物安全篩查系統檢查 DNA 合成訂單是否有安全風險。
圖 | Twist Bioscience 官網(來源:Twist Bioscience)
傳統生物安全篩查系統都會將新 DNA 與已知危險序列進行比對。而那些人工智能生成的、經過僞裝的序列,很可能繞過它們,構成一個巨大的安全隱患。
為了證明這一點,研究團隊選擇了很容易獲得的開源工具進行設計。同時,為了確保研究過程的絕對安全,所有實驗均在計算模擬環境中完成,沒有合成任何真正的 DNA 或蛋白質。
他們選取了 72 種已知的受關注蛋白質(Proteins of Concern, POCs),這些蛋白質具有潛在的危害性,而且比較知名,包括蓖麻毒素和肉毒桿菌神經毒素等等。
隨後他們利用三種開源的蛋白質序列生成模型,ProteinMPNN、EvoDiff-MSA 和 EvoDiff-Seq,對這 72 種目標蛋白質進行改造。
人工智能模型的任務是對這些蛋白質的 DNA 編碼進行「人工智能重表述(AI reformulation)」,算法不會簡單地複製原始序列,而是在保持潛在摺疊與功能特徵的同時,最大程度地改變其氨基酸序列,生成與已知序列低相似度但高結構相似性的合成同源物。
模型總共生成了 76,080 個合成同源物,用於檢驗 4 個現有的生物安全篩查系統。
論文沒有透露具體的系統名稱,我們只知道它們來自於四家不同的生物安全篩查軟件提供商。這些工具採用的方法包括正則匹配、隱馬爾可夫模型、基於神經網絡增強的比對方法等等,但底層框架都是最佳匹配原則。
由於沒有進行實體實驗,團隊使用了 OpenFold(一種結構預測工具)來計算兩個關鍵的計算模擬指標:TM-Score(評估變體與原始蛋白質的結構相似度)和 ApLDDT(評估結構預測的置信度)。這兩個指標被用作一個「帶噪音的代理指標」,以評估人工智能生成的變體保留其原始有害功能的可能性。
結果顯示,大量具有高結構相似度(即高 TM-Score 和高 ApLDDT)的變體成功通過檢測。論文沒有給出具體比例數據,只能通過圖片數據計算得出大概的比例,4 個系統約在 30%-70% 之間。
圖 | 部分工具「打補丁前」和「打補丁後」的表現(來源:論文)
儘管這些僅存在於數字世界的序列是否具有致病性尚未可知,但它們在結構上與原始毒素的高度相似性,意味着它們很可能保留了有害功能,足以稱得上是嚴重的生物安全漏洞。
識別出漏洞後,研究團隊開始與多個行業夥伴合作,開發並部署了軟件補丁和新的篩查策略,以提升對有害蛋白質序列的識別準確率。
微軟表示,這個過程持續了 10 個月,是一個迅速的、保密的、跨部門的合作。行動模式幾乎復刻了軟件領域零日漏洞的緊急響應流程。
經過升級後,篩查系統的檢測率得到了顯著提升。4 個系統的平均漏報率約為 3%,其中一個工具的漏報率甚至降低到了 1%。
「然而沒有一個工具能檢測出所有(模擬得到的)高危變種。」論文寫道。
研究團隊深入分析了漏網之魚。他們發現部分漏報因為人工智能生成的序列與某些無害的天然蛋白質序列更為相似。根據最佳匹配原則,篩查系統會將其判定為安全。
此外,有的漏報源於專家們對其本身是否應被劃分為「有毒/存在威脅」存在分歧,因為它只是一個毒素的輔助成分。還有一些漏報是因為篩查系統的訓練參數對特定蛋白質效果不佳。
這幾個問題凸顯了篩查系統的底層邏輯亟待更新。為了應對日益強大的人工智能,它需要變得可定製,科學家也應當制定更清晰的威脅分級系統。
在該研究中,微軟團隊與 Twist Bioscience 公司進行了深入合作。
Twist Bioscience 由艾米麗·萊普魯斯特(Emily Leproust)、比爾·班亞伊(Bill Banyai)和比爾·佩克(Bill Peck)於 2013 年共同創立,是一家合成生物學公司,主營業務包括合成和定製 DNA。
據該公司介紹,它開發了一種基於高通量半導體的 DNA 合成平臺,可以將化學反應微縮最高百萬分之一,從而實現大規模並行化。在一塊傳統 96 孔板上只能合成一個基因,而 Twist 的硅基芯片可以同時合成 9,600 個基因。
該公司還表示,其 DNA 合成錯誤率極低,可達 1:7500(即平均每 7500 個鹼基纔可能出現一個錯誤),明顯優於傳統的化學方法(通常在 1:200 到 1:500 左右)。
Twist Bioscience 首席執行官兼聯合創始人艾米麗·萊普魯斯特是高通量 DNA 合成與測序領域的早期先驅。她在創立 Twist Bioscience 之前,已在安捷倫科技(Agilent Technologies)領導開發了多項關鍵技術,擁有有機化學博士學位、數十項專利和衆多同行評議的出版物。
(來源:領英)
不過,安捷倫科技在 2016 年起訴了 Twist Bioscience,指控艾米麗「在創辦定製 DNA 產品和服務提供商時竊取了商業機密」。雙方在 2020 年達成和解,Twist Bioscience 支付了 2250 萬美元和解費。
目前還有一起針對艾米麗和 Twist Bioscience 的集體訴訟正處於調查階段。原告聲稱,Twist Bioscience 高管團隊「謊報了公司的創新專有技術能以更高質量和更低成本生產合成 DNA」。
話說回來,這篇有微軟參與的論文目前已經通過了同行評審,Twist Bioscience 在其中的貢獻是值得肯定的。
這項研究凸顯了網絡生物安全研究的必要性。此前,網絡生物安全更多停留在學術層面,而該研究通過借鑑網絡安全領域的紅隊演練、零日漏洞,將其推進到了一個可被驗證和複製的實踐層面。
更難能可貴的是,研究人員還找到了解決辦法,將現有篩查工具背後的巨大漏洞縮小成了小孔。
但正如前文提到的,沒有任何篩查工具是完美的。以目前人工智能技術的發展速度,它們在未來很長一段時間內,都將面臨艱鉅的挑戰。
參考資料:
https://news.microsoft.com/signal/articles/researchers-find-and-help-fix-a-hidden-biosecurity-threat/
https://www.science.org/doi/10.1126/science.adu8578
https://www.twistbioscience.com/
https://bioengineer.org/enhancing-biosecurity-measures-for-genes-associated-with-high-risk-proteins/
運營/排版:何晨龍