來源:新智元
如今的大模型生態,早已不再只有少數幾個頭部模型。
Hugging Face上的模型數量持續膨脹,不同家族、不同架構、不同 tokenizer,再加上大量微調版、蒸餾版和適配版,使整個生態越來越像一片快速擴張的‘模型叢林’。
問題在於,許多模型之間究竟是否存在譜系關係,哪些能力繼承自上游模型,哪些只是表面上看起來相似,往往無法從模型卡或發布說明中直接看出。
這不僅影響我們對模型生態的理解,也關係到模型治理、安全審計以及多智能體系統設計。
現有方法仍存在明顯侷限:有些依賴特定任務,難以刻畫模型的整體特徵;有些僅適用於固定模型集合,缺乏對新增模型的可擴展性;還有一些方法較強依賴 tokenizer 或內部結構,因而難以適配異構模型。歸根結底,這一方向仍缺少一種更通用、更穩定、且更具擴展性的模型‘身份表示’。
面對這一問題,新加坡國立大學與上海交通大學聯合團隊提出了LLM DNA,嘗試像研究生物演化一樣,用功能行為表徵刻畫模型之間的‘親緣關係’。他們不僅從數學上定義了什麼是 LLM DNA,還提出了一套無需訓練的提取方法RepTrace,並在305個大模型上進行了驗證。結果表明,這種‘DNA’不僅能夠識別模型之間的關係,還能進一步構建大模型的系統發育樹。
論文鏈接:https://openreview.net/pdf?id=UIxHaAqFqQ
項目代碼:https://github.com/Xtra-Computing/LLM-DNA
項目網站:https://dna.xtra.science/
該論文已被ICLR 2026 接收為Oral,約佔總投稿量的1%。
給模型做‘DNA檢測’,核心不是看參數,而是看模型‘怎麼回答’
LLM DNA的核心思想,是從模型的功能行為而非參數表面出發,對 LLM 進行統一表徵。
研究團隊把這種從功能行為中提煉出來的低維表徵稱為‘LLM DNA’,如果兩個模型在很多問題上的反應模式很接近,那麼它們的DNA也應該彼此接近;如果兩個模型差得很遠,它們的DNA也應該拉開。
論文進一步證明,這樣的表徵具備兩種類似生物DNA的性質:一是‘繼承性’,也就是模型經過微調或演化後,DNA 不會突然徹底變掉;二是‘遺傳決定性’,也就是 DNA 相近的模型,行為上通常也更相似。
不用重訓的‘驗DNA’流程
為了將這一思想落到實踐,作者提出了訓練無關的 DNA 提取流程 RepTrace。具體而言,該方法首先構造一組統一的 probe 輸入,收集不同模型在這些輸入上的文本響應;
隨後利用凍結的句向量模型將響應編碼為語義embedding,並將多條響應embedding串接為高維功能表示;
最後,基於Johnson–Lindenstrauss lemma所支撐的隨機投影思想,採用隨機高斯投影將這一高維表示壓縮到低維 DNA 空間。
這裏的關鍵並不只是降維本身,而是在壓縮過程中儘可能保持不同模型在功能行為上的相對幾何結構,從而使語義上相近的模型在 DNA 空間中仍然彼此接近。

值得注意的是,這裏的 probe 輸入並不依賴精心設計的任務數據。論文及其官方材料表明,即便使用按固定規則隨機生成、且完全不經過任何大模型參與構造的文本作為輸入,提取出的 DNA 依然能夠保持很強的判別能力;在關係預測任務中,這種隨機輸入設定下的 AUC 仍可達到 0.987。
這個結果說明,LLM DNA 並不依賴特定 benchmark 的題目形式,而能夠從更一般的輸入中捕捉模型較為穩定的功能特徵。隨機輸入的意義主要在於,它有助於減弱特定評測集、訓練語料或題目分佈帶來的偏置。
面對一個新模型,只需在同一套輸入和流程下提取其 DNA,便可直接納入現有比較框架,而無需重新訓練或調整其他模型的表示。
大模型家譜
這項工作的一個重要亮點,在於其實驗驗證具有較大的覆蓋範圍。研究共分析了來自153家機構的305個大模型,覆蓋不同架構、不同參數規模,並同時包含 base 模型與 instruction-tuned 模型。
實驗結果表明,基於 LLM DNA 的關係檢測取得了接近 0.99 的 AUC,顯著優於多個基線方法。這說明,LLM DNA 能夠較為穩定地區分彼此存在關聯的模型與關係較弱或無明顯關聯的模型。

更有意思的是,DNA還能夠幫助發現一些文檔裏沒有明說的潛在關係。論文在 305 個模型的t-SNE可視化中觀察到,同一機構、同一家族的模型往往自然聚在一起,而一些沒有明確記錄來源的模型,也會靠近其可能的上游家族。
這種現象說明,LLM DNA不只是‘複述已知關係’,還可能成為發掘隱藏演化線索的新工具。
除了‘認親’,DNA還可以拿來做模型路由。論文把DNA用在與EmbedLLM相同的路由設定中,結果顯示,凍結的DNA表示在測試集上的路由準確率達到0.672,略高於EmbedLLM的0.665。
更重要的是,EmbedLLM的表示是圍繞該任務專門學出來的,而LLM DNA並沒有針對路由任務做任何專門訓練。這說明,它確實更接近一種任務無關的模型‘基礎表徵’。
真實案例
在305個模型的大規模實驗之外,LLM DNA 的價值還體現在對新模型的實際分析上。
最近,在GLM 5.1相關信息尚未完全公開之前,研究團隊利用LLM DNA的workbench對openrouter/pony-alpha進行了比較分析。
結果顯示,在候選模型中,pony-alpha與z-ai/glm-4.7的DNA相似度最高,顯著高於Gemini等其他模型;從功能行為表徵的角度看,這一結果為其可能屬於 GLM 譜系提供了較強線索。
與依賴公開文檔、命名方式或零散傳聞不同,這種判斷直接建立在模型響應所形成的功能表示之上,因此更接近一種‘基於行為的譜系分析’。這一案例也說明,LLM DNA的意義並不侷限於論文中的離線基準評測。
除了在305個模型上系統驗證其能夠穩定識別模型關係之外,它還可以作為面向新模型的分析工具,在公開信息有限的情況下,為模型來源、繼承關係和潛在家族歸屬提供額外證據。

從‘模型指紋’走向‘模型進化樹’
當模型之間的距離可以量化之後,下一步就很自然了:能不能把整個大模型世界畫成一張‘家譜圖’?
論文確實這麼做了。團隊基於 DNA 距離構建了系統發育樹,結果發現這棵樹能夠比較自然地反映出一些真實世界中的演化規律:例如從encoder-decoder到decoder-only的整體遷移,不同家族隨時間推進的演化,以及像Llama、Qwen、Gemma這樣的家族分支結構。論文還觀察到,不同家族的‘演化速度’似乎也不一樣,有些分支變化更快,有些則更平穩。

這也是這項工作最容易打動人的地方之一。過去我們談模型演化,很多時候靠的是發布時間、模型名字、官方說明,或者圈內經驗判斷。LLM DNA提供的則是另一種視角:直接從模型實際表現出發,反過來重建它們之間的關係圖譜。對於越來越複雜的大模型生態來說,這種‘從行為反推譜系’的能力,本身就很有價值。
為什麼這件事重要
從更現實的角度看,LLM DNA可能帶來幾類直接價值。
第一是模型溯源。未來如果某個模型出現安全問題、版權爭議或許可證爭議,DNA可能成為輔助判斷其來源和演化關係的證據之一。
第二是模型治理。對於企業或平台來說,面對海量模型,如何快速判斷哪些模型相近、哪些模型值得保留、哪些模型可能只是已有模型的近似變體,DNA可能提供新的組織工具。
第三是多模型系統設計。如果不同模型之間的‘親緣遠近’能夠量化,就可能幫助我們更合理地做路由、集成甚至多智能體協作分工。論文在引言中也明確提到,這正是該工作的幾個重要動機。
當然,LLM DNA不是說一個低維向量就能解釋模型的一切。更準確地說,它提供的是一種更統一、更可擴展的‘觀察模型’的方式。過去很多模型之間的關係,要麼只能靠公開資料猜,要麼只能靠零散案例分析。現在,至少有了一種辦法,可以比較系統地識別這些潛在的譜系關係。
總結
LLM DNA這項工作的吸引力,不只是在於它提出了一個新名字,更在於它把一件很多人隱約覺得重要、但一直缺少統一工具的事情,真正往前推了一步:在模型越來越多、版本越來越雜、公開譜系越來越不透明的時代,我們能不能像‘驗DNA’一樣,從模型回答問題的方式裏,看出它和誰更像、可能繼承了誰、又和哪些模型暗中相連。
從這個角度看,這項ICLR‘26 Oral工作最值得傳播的,並不只是一個接近0.99的數字,而是它讓‘發現模型隱藏譜系’這件事,開始變得更系統、更可操作,也更容易被真正用起來。
責任編輯:張恒星