炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!
本文第一作者爲北京郵電大學副教授、彩雲科技首席科學家肖達,其他作者爲彩雲科技算法研究員孟慶業、李省平,彩雲科技CEO袁行遠。
殘差連接(residual connections)自何愷明在 2015 年開山之作 ResNet [1] 中提出後,就成爲深度學習乃至 Transformer LLMs 的一大基石。但在當今的深度 Transformer LLMs 中仍有其侷限性,限制了信息在跨層間的高效傳遞。
彩雲科技與北京郵電大學近期聯合提出了一個簡單有效的殘差連接替代:多路動態稠密連接(MUltiway Dynamic Dense (MUDD) connection),大幅度提高了 Transformer 跨層信息傳遞的效率。
大規模語言模型預訓練實驗表明,僅增加 0.23% 的參數量和 0.4% 的計算量,採用該架構的 2.8B 參數量 MUDDPythia 模型即可在 0-shot 和 5-shot 評估中分別媲美 6.9B 參數量(~2.4 倍)和 12B 參數量(~4.2 倍)的 Pythia 模型,表明了 MUDD 連接對 Transformer 的基礎能力(尤其是上下文學習能力)的顯著提升。
這是該團隊繼 DCFormer [2](ICML 2024)後又一項大模型底層架構創新工作,已被 ICML 2025 接收,論文、代碼和模型權重均已公開。
背景
在 Transformer 中殘差流彙集了多層的信息,同時也爲 Attention 和 FFN 提供多路信息,比如在 Attention 模塊中需要獲取 query、key、value 三路信息,殘差流本身也可以看作一路信息流(記作 R)。雖然殘差連接的引入首次讓訓練超深度網絡成爲可能,但在當今的深度 Transformer LLMs 中仍有其侷限:
針對上述侷限,MUDD 根據當前隱狀態動態搭建跨層連接(可視爲深度方向的多頭注意力),來緩解深層隱狀態的表徵坍塌,同時針對 Transformer 每層的 query、key、value、殘差等不同輸入流採用各自的動態連接,來減少多路信息流的相互干擾,緩解殘差流的信息過載,這樣既大幅度拓寬了跨層信息傳輸帶寬,又保證了非常高的參數和計算效率。
核心架構
如圖 1a 所示,爲了實現更直接的跨層交互,DenseNet [5] 將當前 Block 和前面所有的 Block 進行稠密連接(Dense Connectivity)。最近 Pagliardini 等人 [6] 將其引入 Transformer,提出了 DenseFormer(NeurIPS 2025),如圖 1b 所示。它通過一組可學習但靜態的權重(如 w_i,j)來加權求和前面所有層的輸出。這種方式雖然拓寬了信息通路,但靜態權重使得對於序列中不同 token 都做同樣處理,限制了表達能力。
實驗評估
研究者在 Pile 數據集上測試了 MUDDFormer 和其他基線模型的擴展能力,如圖 2 所示。Hyper-Connections [8] 也是字節跳動 Seed 最近一個發表在 ICLR 2025 的改進殘差連接的工作,圖 2 中可見 DynamicDenseFormer 已經比 DenseFormer 和 Hyper-Connections 都表現好,而且在解耦多路信息流後,MUDDFormer 又有明顯的效果提升。
在所有模型尺寸下 MUDDFormer 都顯著領先 Transformer++ 和其他基線模型 (Loss 越低越好),並且其領先優勢隨着模型增大並未減小。MUDDFormer-834M 的性能,已經超越了需要 1.89 倍計算量的 Transformer++ 基線模型,展現了驚人的計算效率提升。
爲了驗證 MUDDFormer 在更深層模型上的有效性,研究者在不增加參數量的前提下增加模型的深度,並進行了擴展實驗,如圖 3。Transformer++ 在超過 24 層後收益遞減(縮放曲線幾乎重合),而 deep MUDDFormer 在高達 42 層時仍能保持收益,使得在 797M 下達到了2.08倍 Transformer++ 的性能。這進一步驗證了 MUDD 連接可以通過增強跨層信息流來緩解深度引起的瓶頸。
研究者將 MUDD 架構與開源的 Pythia 模型框架結合,在 300B tokens 的數據上進行訓練,並與從 1.4B 到 12B 的全系列 Pythia 模型進行比較,如圖 4。
首先,MUDDPythia 在 0-shot 和 5-shot 任務上的平均準確率,都明顯高於同等計算量下的 Pythia 模型,而且在 5-shot 下的提升效果更明顯,說明上下文能力得到了額外的增強。
從圖 5 中可以看出在 0-shot 下,2.8B 的 MUDDPythia 的性能媲美了 6.9B 的 Pythia,實現了 2.4 倍的計算效率飛躍;在 5-shot 下,2.8B 的 MUDDPythia 的性能,甚至追平了 12B 的 Pythia,實現了 4.2 倍計算效率提升!
這表明,MUDD 所構建的高效信息通路,極大地增強了模型在上下文中動態構建複雜推理迴路的能力。
分析
圖 6 展示了模型注意力頭激活比例隨層數的變化,在標準的 Pythia 模型中,隨着層數加深大量注意力頭都只關注少數幾個 token(attention sink [9])並未激活。
然而,在 MUDDPythia 中,幾乎在所有層的注意力頭激活率都遠高於 Pythia,平均高出約 2.4 倍。這說明 MUDD 連接加強了對 Attention 的利用,也部分解釋了上下文能力的增強。
結語
MUDDFormer 通過簡單高效的實現改進了殘差連接,爲 Transformer 內部不同的信息流(Q、K、V、R)建立各自獨立的動態跨層連接,不僅增強了 Transformer 模型的跨層交互,而且進一步提升了模型的上下文學習能力。實驗證明這種新的連接機制能以微弱的代價,換來模型性能和計算效率的巨大飛躍。MUDDFormer 所展示的潛力,使其有望成爲下一代基礎模型架構中不可或缺的新基石。
參考文獻
[1] He, K., Zhang, X., Ren, S., and Sun, J. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR), pp. 770–778, 2016.
[2] Xiao, Da, et al. "Improving transformers with dynamically composable multi-head attention." Proceedings of the 41st International Conference on Machine Learning. 2024.
[3] Liu, L., Liu, X., Gao, J., Chen, W., and Han, J. Understanding the difficulty of training transformers. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2020b.
[4] Gromov, A., Tirumala, K., Shapourian, H., Glorioso, P., and Roberts, D. A. The unreasonable ineffectiveness of the deeper layers. arXiv preprint arXiv:2403.17887, 2024.
[5] Huang, G., Liu, Z., Van Der Maaten, L., and Weinberger, K. Q. Densely connected convolutional networks. In Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR), pp. 4700–4708, 2017.
[6] Pagliardini, M., Mohtashami, A., Fleuret, F., and Jaggi, M. Denseformer: Enhancing information flow in transformers via depth weighted averaging. In Proceedings of the Thirty-Eighth Annual Conference on Neural Information Processing Systems (NeurIPS), 2024.
[7] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., and Polosukhin, I. Attention is all you need. Advances in neural information processing systems, 30, 2017.
[8] Zhu, D., Huang, H., Huang, Z., Zeng, Y., Mao, Y., Wu, B., Min, Q., and Zhou, X. Hyper-connections. In Proceedings of the Thirteenth International Conference on Learning Representations (ICLR), 2025
[9] Xiao, G., Tian, Y., Chen, B., Han, S., and Lewis, M. Efficient streaming language models with attention sinks. In The Twelfth International Conference on Learning Representations (ICLR), 2024b.
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。