一台觀察人類DNA的AI「顯微鏡」：谷歌AlphaGenome問世

　　炒股就看金麒麟分析師研報，權威，專業，及時，全面，助您挖掘潛力主題機會！

智東西

作者李水青

編輯心緣

智東西6月25日報道，今天，谷歌DeepMind推出AlphaGenome，一款能幫助人們快速預測基因變化影響的AI模型。

AlphaGenome就像一台「觀察人類DNA的AI顯微鏡」，以長達100萬個鹼基對的長DNA序列作為輸入，預測數千種表徵其調控活性的分子特性，在超20項廣泛的基因組預測基準中實現了最先進的性能。

與已有的DNA序列模型相比，AlphaGenome具有幾個獨特的特點：支持高分辨率的長序列上下文、綜合多模態預測、高效變異評分和新穎的剪接連接模型。

當下，谷歌通過AlphaGenome API提供AlphaGenome預覽版，供非商業研究使用，並計劃在未來發布該模型。

紀念斯隆·凱特琳癌症中心的博士Caleb Lareau說：「這是該領域的一個里程碑。我們首次擁有一個能夠統一遠程上下文、基礎精度和各種基因組任務的尖端性能的單一模型。」

論文地址：

https://storage.googleapis.com/deepmind-media/papers/alphagenome.pdf

一、百萬DNA序列輸入，預測數千種分子特性

AlphaGenome模型以長達100萬個鹼基對的長DNA序列作為輸入，預測數千種表徵其調控活性的分子特性。它還可以通過比較突變序列與未突變序列的預測結果來評估遺傳變異或突變的影響。

預測的屬性包括基因在不同細胞類型和組織中的起始和終止位置、基因剪接的位置、產生的RNA數量，以及哪些DNA鹼基可接近、彼此靠近或與某些蛋白質結合。訓練數據來源於大型公共聯盟，包括ENCODE、GTEx、4D Nucleome和FANTOM5，這些聯盟通過實驗測量了這些屬性，涵蓋了數百種人類和小鼠細胞類型和組織中基因調控的重要模式。

以下動畫顯示AlphaGenome將一百萬個DNA字母作為輸入，並預測不同組織和細胞類型的不同分子特性。

AlphaGenome架構使用卷積層初步檢測基因組序列中的短模式，使用轉換器在序列的所有位置傳遞信息，最後使用一系列層將檢測到的模式轉化為不同模態的預測。在訓練過程中，此計算分佈在單個序列的多個互連張量處理單元（TPU）上。

該模型以谷歌之前的基因組學模型Enformer為基礎，並與AlphaMissense相輔相成，後者專門對蛋白質編碼區內變異的影響進行分類。這些區域覆蓋了基因組的2%。其餘98%的區域稱為非編碼區，對調控基因活動至關重要，幷包含許多與疾病相關的變異。AlphaGenome為解讀這些廣泛的序列及其內部的變異提供了一個新的視角。

二、高分辨率的長序列上下文，綜合多模態預測

與已有的DNA序列模型相比，AlphaGenome具有幾個獨特的特點：

1、高分辨率的長序列上下文

谷歌的模型分析多達一百萬個DNA鹼基，並以單個鹼基的分辨率進行預測。長序列上下文對於覆蓋遠處調控基因的區域至關重要，而鹼基分辨率對於捕捉精細的生物學細節至關重要。

先前的模型必須在序列長度和分辨率之間做出權衡，這限制了它們能夠聯合建模並準確預測的模態範圍。谷歌的技術進步解決了這一限制，且無需顯著增加訓練資源——訓練單個AlphaGenome模型（未進行數據蒸餾）耗時4小時，且所需的計算預算僅為訓練原始Enformer模型的一半。

2、綜合多模態預測

通過解鎖長輸入序列的高分辨率預測，AlphaGenome能夠預測最多樣化的模態。由此，AlphaGenome為科學家提供了有關基因調控複雜步驟的更全面的信息。

3、高效變異評分

除了預測各種分子特性外，AlphaGenome還能在一秒鐘內高效地評估基因變異對所有這些特性的影響。它通過對比突變序列和未突變序列的預測，並針對不同模式使用不同的方法高效地總結這種對比來實現這一點。

4、新穎的剪接連接模型

許多罕見遺傳疾病，例如脊髓性肌萎縮症和某些形式的囊性纖維化，都可能由RNA剪接錯誤引起。RNA剪接是指RNA分子的部分被移除，或「剪接掉」，然後剩餘的末端重新連接在一起的過程。AlphaGenome首次能夠直接從序列中明確模擬這些連接的位置和表達水平，從而更深入地了解遺傳變異對RNA剪接的影響。

三、超20項基準測試中表現最佳

AlphaGenome在廣泛的基因組預測基準中實現了最先進的性能，例如預測DNA分子的哪些部分將會靠近，遺傳變異是否會增加或減少基因的表達，或者它是否會改變基因的剪接模式。

下方條形圖顯示了AlphaGenome在選定的DNA序列和變異效應任務上的相對改進，並與每個類別中當前最佳方法的結果進行了比較。

在對單個DNA序列進行預測時，AlphaGenome在24項評估中，有22項的表現優於市面上已有的最佳模型。在預測變異的調控效應時，它在26項評估中，有24項的表現與最佳外部模型相當甚至超過了最佳外部模型。

本次比較涵蓋了針對特定任務的模型。AlphaGenome是唯一能夠聯合預測所有評估模態的模型，彰顯了其通用性。

四、統一模型，更快地生成和測試假設

AlphaGenome的通用性使科學家能夠通過單個API調用同時探索一個變異對多種模式的影響。這意味着科學家可以更快地生成和測試假設，而無需使用多個模型來研究不同的模式。

此外，AlphaGenome的出色表現表明，它已經在基因調控的背景下學習到了相對通用的DNA序列表徵。這為更廣泛的研究社區奠定了堅實的基礎。一旦該模型全面發布，科學家們將能夠在自己的數據集上對其進行調整和微調，以更好地解決他們獨特的研究問題。

最後，這種方法為未來提供了一個靈活且可擴展的架構。通過擴展訓練數據，AlphaGenome的功能可以得到擴展，從而獲得更好的性能，覆蓋更多物種，或包含更多模態，使模型更加全面。

五、助力疾病理解、基礎研究等

AlphaGenome的預測能力可以幫助多種研究途徑：

1、疾病理解：通過更準確地預測基因突變，AlphaGenome可以幫助研究人員更精準地查明疾病的潛在病因，並更好地解釋與某些性狀相關的變異的功能影響，從而可能發現新的治療靶點。我們認為該模型尤其適用於研究可能產生巨大影響的罕見變異，例如導致罕見孟德爾遺傳病的變異。

2、合成生物學：它的預測可用於指導具有特定調節功能的合成DNA的設計——例如，僅激活神經細胞中的基因，而不是肌肉細胞中的基因。

3、基礎研究：它可以通過協助繪製基因組的關鍵功能元素並定義其作用，識別調節特定細胞類型功能的最重要DNA指令，加速我們對基因組的理解。

例如，谷歌使用AlphaGenome研究了一種癌症相關突變的潛在機制。在一項針對T細胞急性淋巴細胞白血病（T-ALL）患者的現有研究中，研究人員觀察到基因組特定位置的突變。利用AlphaGenome，他們預測這些突變會通過引入MYB DNA結合基序來激活附近的TAL1基因，這複製了已知的疾病機制，並凸顯了AlphaGenome將特定非編碼變異與疾病基因關聯起來的能力。

倫敦大學學院馬克·曼蘇爾教授說：「AlphaGenome將成為該領域的一個強大工具。確定不同非編碼變異之間的相關性可能極具挑戰性，尤其是在大規模研究的情況下。該工具將提供關鍵的線索，幫助我們更好地理解癌症等疾病。」

結語：AI基因預測重要一步

AlphaGenome標誌着AI基因預測向前邁出了重要一步，但仍有其侷限性。

與其他基於序列的模型一樣，準確捕捉極遠距離調控元件的影響（如那些相距超過10萬 DNA 鹼基的調控元件）仍然是一個尚未解決的挑戰。

同時，谷歌尚未設計或驗證AlphaGenome用於個人基因組預測。雖然AlphaGenome可以預測分子結果，但它並不能全面展現基因變異如何導致複雜的性狀或疾病。

海量資訊、精準解讀，盡在新浪財經APP

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

一台觀察人類DNA的AI「顯微鏡」：谷歌AlphaGenome問世

熱議股票