
作者 | 程茜
編輯 | 漠影
螞蟻集團這波操作大圈粉!
智東西10月28日報道,10月25日,螞蟻集團在arXiv上傳了一篇技術報告,一股腦將自家2.0系列大模型訓練的獨家祕籍全盤公開。

今年9月至今,螞蟻集團百靈大模型Ling 2.0系列模型陸續亮相,其萬億參數通用語言模型Ling-1T多項指標位居開源模型的榜首;Ling-mini-2.0總參數160億,每個Token僅激活14億參數;Ling-flash-2.0總參數1000億、激活僅6.1B,性能媲美400億級別參數模型……
這些模型的表現,標誌着大模型發展從單純堆參數邁向以高效方式實現智能的新階段,而這一轉變的核心支撐正是Ling 2.0技術體系,此次螞蟻技術報告對此進行了全盤解讀。
Ling 2.0的核心亮點清晰聚焦:依託高稀疏度混合專家設計、推理導向的數據流水線、多階段對齊策略,以及基於FP8的萬億級訓練基礎設施,無一不是在為通用推理模型搭建具備可擴展性的堅實技術底座。
當我們將目光放大至整個行業,可以發現,大模型的競爭力正向用用最少的資源解決最多的場景問題轉變,而Ling 2.0面向模型架構、預訓練、後訓練、基礎設施各個環節的深度融合創新,正在為其提高切實可行的技術路徑。
在這一背景下,圍繞Ling-min-2.0、Ling-flash-2.0、萬億參數非思考模型Ling-1T三款模型的具體性能,以及螞蟻新技術報告,我們將拆解大模型時代當模型架構、訓練數據、訓練策略與基礎實施深度融合後,模型智能會如何飛躍。
技術報告:https://arxiv.org/abs/2510.22115
Hugging Face開源主頁:https://huggingface.co/inclusionAI
一、每一次激活都提升推理能力!架構、預訓練、後訓練、基礎設施全棧融合創新
參數規模達數千億乃至萬億參數的超大規模模型加速湧現,其在大模型產業中的重要性與日俱增。
但伴隨模型向更高參數規模、更強模型能力突破的同時,仍面臨模型訓練效率與成本的平衡、模型推理能力提升、長上下文處理、模型性能與評估體系迭代慢等多重關鍵問題。
針對這些痛點,Ling 2.0的核心解法就是「讓每一次激活都提升推理能力」,從而實現在稀疏激活下最大限度地提高推理精度和效率。而這一技術優化的關鍵也就是推理環節的效率與精度兼顧的痛點,使得大模型訓練在保證計算資源高效利用的同時,直接推動推理能力的提升。
大模型的實際性能表現,是衡量其技術路徑優劣最直接、最有力的證明。如今,基於Ling 2.0,螞蟻集團已經發布三款不同參數規模模型,160億參數規模的Ling-mini-2.0、1000億參數規模的Ling-flash-2.0以及萬億參數模型Ling-1T。
在效率層面,Ling 2.0系列模型中,Ling-mini-2.0每Token激活參數僅14億,其性能就可媲美百億參數級稠密模型,Ling-flash-2.0每次推理激活參數61億,就可媲美400億級稠密模型,激活計算效率約7倍。Ling 2.0模型實現了以更低計算成本,實現更高性能回報。
推理性能上,萬億規模模型上,Ling-1T每次推理激活約510億參數,在2025年美國數學邀請賽AIME benchmark中,其突破了推理準確率與推理長度的帕累託邊界,實現既支持更長文本、更多輪次的高效思考,又能保證複雜任務下答案的精準求解,尤其在數學與編程任務中優勢明顯。
與此同時,這三款模型還展現出了一致性,Ling 2.0系列模型參數規模從百億到萬億,性能也隨之穩步提升,這一結果直接驗證了其架構設計與訓練策略的可擴展性。
模型的實際表現證明,Ling 2.0 技術正在解決大模型推理效率與精度難以兼顧的核心矛盾中,持續創造價值,讓每一次參數激活都服務於推理能力提升,避免了無效計算。
通過對螞蟻這份新發技術報告的深度拆解,我們得以完整看清這一技術路徑的底層邏輯和關鍵原理。
二、模型架構:高稀疏MoE與Ling縮放定律
首先是模型架構,其作為核心支柱直接決定了模型性能上限。
在Ling 2.0中,研究人員採用了統一的MoE基礎架構,然後集成aux-loss-free負載均衡策略和多Token預測(MTP)進一步提升性能,並通過Ling scaling law進行精準外推擴展。
具體來看,其基於高稀疏度、細粒度的設計,使得每個模型配置256個路由專家,8個激活專家和1個共享專家,整體激活率約為3.5%。同時將三個模型的初始層分別指定為1層、1層和4層稠密層,這種方法可以在保持模型性能的同時減少總參數量,並提升路由平衡性。

Ling 2.0系列的模型架構配置
底座搭建完成後,研究人員進一步通過設計優化提升其效率、性能、可擴展性。
Ling 2.0的路由均衡策略遵循與DeepSeek-V3類似的設計,其無輔助損失均衡策略可同時促進專家專業化和負載均衡,並應用路由器門縮放提高訓練穩定性。
同時,Ling 2.0還原生集成MTP作為輔助訓練目標,為每個模型規模引入一個MTP層,並將MTP損失權重設定為0.1,通過在Megatron訓練框架內為MTP模塊實現細粒度的流水線並行(PP)劃分,以降低MTP的性能開銷。
研究報告指出,研究人員最初就將訓練萬億參數模型作為長期目標,因此從一開始就制定了Ling scaling law用於指導超參數與架構的選擇。其關鍵作用包括,確定Ling 2.0的超參數與架構配置,確保架構效率接近最優水平;提供標準化流程,僅需全量訓練計算成本的 1%,即可驗證針對Ling 2.0的新想法與新興技術。
這就使得其計算結果可以更加可靠地被外推到規模超100倍的計算場景中,讓萬億級規模的模型落地能更加高效推進。
其制定的統一EL縮放定律整合了計算預算(C)、激活率(A)和專家粒度(G)的影響:
研究人員的實驗結果顯示,與傳統消融實驗相比,Ling風洞實驗(低成本實驗評估框架)的成本效益更高,其總計算成本僅為傳統方法的35%。

Ling風洞實驗設計圖(a)及實例分析(b)
三、預訓練:20T高質量數據集與多階段訓練策略
預訓練相當於為大模型打下紮實的基礎認知,其核心在於讓模型學會通用知識和推理,同時為之後完成下游任務的快速微調、可擴展性打基礎。
因此,數據集的質量以及到底要怎麼訓練就是這一階段的關鍵。
在數據選擇與準備階段,Ling 2.0的目標是構建高效的數據處理基礎設施和管理語料庫,廣泛涵蓋高質量的通用數據,包括但不限於常識、代碼、數學、多語言內容等。
其數據種類多元化,既包括從網頁、書籍、論文和維基百科等海量多樣化數據集中獲取到的常識數據,還包括主要增強通用推理能力的Ling代碼語料庫和數學語料庫,以及多語言數據、長上下文數據。

Ling數學語料庫實驗結果
訓練策略是讓數據最大程度發揮價值的另一關鍵。
在此基礎上,研究人員在預訓練和中期訓練階段採用了多階段訓練策略:在大規模通用語料庫上進行通用預訓練;在中等規模、特定任務語料庫上進行中期訓練。

Ling 2.0的預訓練和中期訓練階段
通用預訓練階段,Ling 2.0消耗了大量數據,以確保整體性能的穩健性;中期訓練階段其將上下文長度擴展至128K,並通過引入思路鏈(CoT)數據預先激活模型的推理能力。
此外,在模型訓練中期,提升訓練有效性的關鍵手段是學習率(LR)衰減,但該方式存在明顯短板,既限制了訓練過程的靈活性,又額外增加了調優開銷。為解決這一問題,Ling 2.0系列創新採用WSM(預熱-穩定-合併)調度程序,其核心改進是用檢查點合併替代傳統的LR衰減,能提供更高的靈活性和可擴展性。
為了讓預訓練的質量更可靠,研究人員將預訓練從結果評估變成全流程可控,也就是不僅評估最終模型,還會在整個訓練過程中持續監控基礎模型的基準性能。
這些綜合優化設計之下,Ling 2.0不僅可以基於高質量數據拔高基礎模型能力性能,還可以進一步降低其訓練與落地的成本。
四、後訓練:分層優化,編程、推理能力優於多個主流模型
兼顧快速日常查詢和複雜需求準確應對,是Ling 2.0後訓練階段的關鍵。
在這一層,研究人員採用了分離訓練的監督微調、進化推理強化學習、人類偏好一致的羣體競技獎勵結構化三階段方法,並將其建立在可擴展、高吞吐量的獎勵計算基礎設施之上。

Ling 2.0後訓練流程
首先在第一階段,其引入了一種通過差異化系統提示構建訓練數據的監督式方法解耦微調(DFT),使模型能夠建立專用的深度推理模式。
第二階段,Ling 2.0提出進化思維鏈(Evo-CoT),可以向反射級非思維模型中灌輸自適應推理,使它們能夠根據問題的複雜性擴展推理深度。
第三階段,研究人員設計了羣體競技場獎勵(GAR)機制和擴展領域規則RubriX,提升主觀任務優化的穩定性, 最終實現技術層面準確、且能自然貼合用戶意圖的生成效果。
這一階段,研究人員也充分引入了評估策略,其提出ApexEval,以獲得強化學修訓練的最佳檢查點,從而有效地初始化強化學習。

基於ApexEval的Ling-mini-2.0模型檢查點選擇實驗
其評估結果顯示,Ling-mini-2.0、Ling-flash-2.0和Ling-1T在涉及編程、數學和推理等任務上的表現優於大多數業界領先模型,在AIME 2025評測集上,Ling-1T在推理精度和效率上取得了比DeepSeek-V3.1、Kimi-K2、gemini 2.5 pro更優的平衡。

五、基礎設施:面向萬億級模型訓練進行工程優化
Ling-2.0算法架構的創新提供了大模型低成本擴展的理論路線,但與之匹配的基礎設施能力,直接決定大模型能否訓得出來、跑得起來、用得好。其論文中提到,在沒有任何工程優化的情況下,這種高度稀疏的MoE架構在性能上並不優於密集模型。
然而當下構建可支持萬億參數高效訓練的基礎設施系統面臨顯著挑戰,核心難點在於難以同時平衡成本控制與訓練效率提升兩大需求。
因此,Ling 2.0針對此進行了系統級的工程優化,包括全量FP8訓練、異構細粒度流水線並行、分佈式訓練框架優化,以及基於4C原則構建大模型軟件工程。

具體來看,Ling 2.0採用細粒度的塊級FP8量化策略,激活和梯度以[1, 128]大小的塊進行量化,權重以[128,128]大小的塊進行量化。研究人員還針對交錯1F1B流水線策略存在的挑戰對PP框架進行了優化。
除了FP8訓練和異構調度,研究人員針對分佈式訓練框架進行了包括節點內DeepEP、引入多種融合算子、使用完全重新計算、長上下文訓練等的優化,以增強Ling 2.0訓練的性能和穩定性。
在Ling 2.0模型訓練和分佈式框架開發過程中,框架開發經常成為模型訓練的瓶頸,嚴重時甚至會影響訓練效果,因此,研究人員進一步引入正確、一致、完整和協同設計的4C原則,以保證模型訓練在降低相關成本的同時,能提高開發效率和交付質量。
最後在模型評估層面,研究報告中,其基於OpenCompass重新設計了整個評估流程,與原始OpenCompass相比,每個檢查點的總評估時間減少了2/3以上。
這一系列的研究結果證明,MoE模型可以通過架構、訓練和基礎設施方面的協同創新,同時提升推理能力和計算效率。
結語:螞蟻集團開源之路,開啓大模型高效推理時代
當前大模型領域正從參數競賽轉向效率與性能的平衡,螞蟻集團此前開源了諸多模型從輕量推理模型到萬億參數模型,Ling 2.0的技術報告又通過諸多技術細節,清晰展示了模型規模與效率並非對立的技術路徑。
從其結果來看,這一策略為後續模型開發提供了可借鑑的範例,推動行業從單純的參數競賽轉向更注重效率和性能的發展路徑。