專注AIGC領域的專業社區,關注微軟&OpenAI、百度文心一言、訊飛星火等大語言模型(LLM)的發展和應用落地,聚焦LLM的市場研究和AIGC開發者生態,歡迎關注!
南洋理工大學S-Lab、西安交通大學和商湯科技的研究團隊推出NEO原生多模態模型。
NEO在僅使用3.9億圖文對的情況下,實現了從零構建視覺感知能力,其性能在多項基準測試中比肩甚至超越依賴數十億數據的模塊化模型。
NEO模型證明了多模態能力不必依賴外部視覺編碼器的拼接,而是可以通過重構底層圖元,在單一Transformer架構中原生生長。
主流視覺語言模型的設計範式長期停留在模塊化拼接階段。
這種做法通常是將一個預訓練好的視覺編碼器,比如CLIP或者SigLIP,通過一個投射層連接到一個大語言模型上。
視覺編碼器充當眼睛,投射層充當視神經,大語言模型充當大腦。
這種架構雖然構成了GPT-4V、Claude 3.5 Sonnet以及Qwen-VL等頂尖模型的基礎,但它存在根本性的割裂。
視覺與語言的表徵在數學空間上並不統一,訓練過程需要分階段來修補這種排異反應。
視覺編碼器通常基於雙向注意力機制,旨在一次性看清全圖,而大語言模型基於因果注意力機制,旨在按時間順序預測下一個詞。
兩者交互模式的先天差異,導致了複雜的對齊成本和潛在的性能損耗。
迴歸第一性原理
NEO有外掛任何現成的視覺模型,而是直接改造了大語言模型的底層結構,使其具備同時處理像素和文字的物理能力。
這種改造並非簡單的混合訓練,而是深入到了神經網絡的圖元級別。
NEO的設計哲學在於認為視覺和語言可以在同一個Transformer中實現同構。
為了實現這一目標,研究團隊設計了一套原生VLM圖元。
這套圖元包含三個核心組件,分別解決了輸入映射、注意力交互和空間位置編碼三個關鍵問題。
在輸入層,NEO摒棄了沉重的ViT編碼器,設計了一個極簡的補丁嵌入層。
該層由兩個卷積層和一個GELU激活函數組成。
第一層卷積的步長設定為16,第二層為2,這意味着每個視覺Token對應原始圖像中32乘以32的像素塊。
這不僅是簡單的卷積操作,還包含了類似Pixel Unshuffle的Token摺疊處理。
為了讓模型在單一序列中區分視覺信號的邊界,NEO在視覺Token序列的首尾分別插入了特定的起始和結束標記。
文本輸入則保持標準的Token化處理。
這兩股截然不同的數據流在進入主幹網絡之前,就被映射到了同一個維度空間,為後續的深度融合奠定了數學基礎。
核心引擎層面的改造在於多頭原生注意力機制。
這是NEO的心臟,旨在解決視覺的空間性與語言的時間性之間的衝突。
文本生成遵循因果律,模型在預測下一個詞時,只能看到之前的詞,不能偷看後面。
視覺理解則需要上帝視角,像素點之間需要全方位的交互才能理解圖像的全局結構。
NEO引入了混合掩碼機制來調和這一矛盾。
在處理文本部分時,模型嚴格執行單向的因果注意力,保證語言生成的連貫性。
在處理圖像部分時,所有視覺Token之間開啓全連接的雙向注意力,允許像素自由交互。
關鍵在於交互區域,文本Token可以關注到它之前的所有圖像Token。
這種設計使得模型在保持語言生成邏輯的同時,能夠隨時調用視覺信息進行推理。
NEO最精妙的創新在於原生旋轉位置編碼。
傳統的位置編碼通常是一維的,直接用於圖像會丟失二維空間信息。
簡單的二維位置編碼又難以處理圖文交織的複雜序列。
NEO提出了一種解耦策略,將Transformer的注意力頭在物理上拆分為時間、高度和寬度三個維度的專員。
時間維度負責序列的先後順序,主要服務於文本和視頻幀序。
高度和寬度維度則專門負責圖像的垂直和水平空間信息。
這種解耦不僅僅是邏輯上的區分,更是參數上的物理隔離。
對於文本Token,模型保留時間索引,將高度和寬度索引設為零。
對於圖像Token,時間索引保持不變,因為整張圖在時間線上是一個時刻,但賦予其唯一的高度和寬度座標。
對於視頻輸入,時間索引隨幀遞增,空間索引隨位置變化。
NEO保留了語言模型原始的查詢和鍵頭部維度給時間維度,以保護原有的語言能力。
模型新增了額外的頭部維度專門用於高度和寬度,這增加了約10%的參數量。
這10%的增量專門用於建立視覺的空間座標系。
頻率分配是另一個關鍵細節。
圖像通常需要捕捉高頻的局部紋理,而大語言模型的默認頻率通常較低,適合處理長程語義。
NEO發現這種頻率失配會限制視覺感知能力。
原生旋轉位置編碼為高度和寬度維度設定了與視覺編碼器相匹配的高頻基數,而時間維度則保持低頻設定。
這種設計讓NEO在不干擾語言模型原有知識的前提下,自然生長出了理解二維圖像空間結構的能力。
先分後合的訓練策略
整個訓練過程分為預訓練、中期訓練和監督微調三個階段。
預訓練階段採用了獨特的預緩衝與後置大模型策略。
NEO在這一階段被人為地劃分為兩個部分。
預緩衝部分由數層原生圖元堆疊而成,負責將原始像素轉化為深層的語義表徵。
後置大模型部分基於預訓練的Qwen3系列模型,負責語言推理。
為了防止尚不成熟的視覺信號破壞大模型脆弱的語言知識,後置大模型的大部分參數在這一階段是凍結的。
僅有新加入的高度和寬度維度參數以及連接層參與訓練。
預緩衝充當了一個軟性的視覺編碼器,但它與大模型在結構上是同構的。
這一階段使用了3.45億張圖文對,包括LAION-400M和COYO-700M等數據集的子集。
中期訓練階段旨在消除預緩衝與後置大模型之間的界限。
模型開始解凍,進行全參數的端到端訓練。
數據質量在這一階段得到了顯著提升,引入了InternVL-1.5的訓練語料。
這些語料包含高分辨率圖像、光學字符識別數據和更復雜的圖文對話。
這一步的目標是讓視覺感知與語言推理深度糾纏,消除早期強制分割帶來的隔閡。
監督微調階段則是實戰演練。
全模型在約400萬條高質量指令數據上進行微調。
任務覆蓋了視覺問答、多模態對話、數學推理和圖表理解等領域。
此時的NEO已經完全成為一個單體模型,預緩衝的概念在邏輯上已經融入了整體網絡。
這種漸進式的訓練策略有效平衡了視覺學習的效率與語言能力的保持。
NEO架構性能的全面領先
NEO系列包括基於Qwen3-1.7B構建的NEO-2.2B和基於Qwen3-8B構建的NEO-9B。
在AI2D圖表理解、MMMU多學科推理等十個權威基準測試中,NEO展現了極高的數據效率。
NEO-2.2B在多個排行榜上超越了參數量相近的Qwen2-VL-2B和InternVL2.5-1.8B。
在MMMU測試中,NEO達到了48.6的分數,而Qwen2-VL僅為41.1。
NEO-9B在SEED-I和幻覺測試HallusionBench上表現優異,分別得分76.3和46.4。
這些成績足以與經過數十億數據訓練的模塊化模型互有勝負。
與同樣採用原生架構的競品相比,NEO的優勢更為明顯。
相比於Fuyu-8B在MMMU上27.9的得分,NEO-9B達到了54.6。
這巨大的分差直接證明了原生旋轉位置編碼和混合注意力機制的設計優越性。
消融實驗進一步揭示了NEO成功的關鍵因素。
如果去除原生旋轉位置編碼,改用普通的一維位置編碼,模型性能平均下降了近5個百分點。
這證實了將空間與時間維度解耦是原生視覺語言模型的必經之路。
混合注意力的表現優於純因果注意力,證明了圖像理解必須具備全局視野。
關於預緩衝深度的實驗表明,對於2B模型,12層的預緩衝效果最佳。
對於9B模型,6層預緩衝足矣。
這說明模型規模越大,其底層本身具備的特徵提取潛力越強,所需的額外緩衝越少。
NEO展現了原生架構的潛力,但也並非沒有侷限。
在極度依賴細粒度文本識別的任務上,如DocVQA,NEO-9B的表現甚至未能超過NEO-2.2B。
這暗示了當前的訓練數據,特別是OCR數據的規模,可能仍不足以餵飽更大的原生模型。
NEO僅使用了3.9億數據,而競爭對手通常使用數十億數據。
這既證明了NEO的數據效率,也意味着它還有巨大的潛力等待通過擴大數據規模來釋放。
NEO的出現是對多模態模型構建方式的一次重要修正。
它在工程上驗證了多模態模型不需要拼湊。
通過精心設計的原生圖元,特別是將空間編碼與時序編碼在底層物理結構上的解耦,模型可以在統一的架構內自然學會看和讀。
NEO項目開源了一套可複用的原生圖元組件。
未來的多模態研究或許將不再糾結於選擇哪個視覺編碼器,而是轉向探索如何構建更純粹、更統一的神經網絡結構。
從像素到文字,NEO鋪就了一條不再需要翻譯官的直達之路。
參考資料:
https://github.com/EvolvingLMMs-Lab/NEO
https://huggingface.co/Paranioar
https://arxiv.org/abs/2510.14979