炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!
新智元報道
編輯:海狸
【新智元導讀】Google雙線出擊!T5Gemma重燃encoder-decoder架構戰火,性能暴漲12分;MedGemma堅守decoder-only路線,強攻醫療多模態,擊穿閉源壁壘。Gemma體系完成“架構+落地”雙重進化,打響Google開源反擊戰。
2023年以來,大模型的戰場由decoder-only架構一統江湖。
從GPT家族到LLaMA、Gemma、Mistral,再到Claude、Command-R、Yi系列,
能叫得出名字的主流LLM,幾乎都是清一色的“純解碼器”(decoder-only)。
但今天,Google帶着T5Gemma殺回來了——
不僅重啓了encoder-decoder的技術路線,還略施小技就讓它原地起飛,暴打原版Gemma 2。
T5Gemma本身基於decoder-only的Gemma 2框架。
神奇的是,通過簡單的“適配”轉換成encoder-decoder架構後,T5Gemma一舉實現性能飛躍。
T5Gemma 9B-9B在GSM8K(數學推理)上得分⽐原始Gemma 2 9B⾼出9分,在DROP(閱讀理解)上⾼出4分。
進一步縮小參數量,結果反而更驚人!
T5Gemma 2B-2B IT的MMLU得分⽐Gemma 2 2B提高了近12分,GSM8K準確率暴漲到70.7%。
T5Gemma主要面向文本生成任務,包括問答系統、數學推理、閱讀理解等。
並且encoder-decoder的架構支持“不平衡”配置。如9B編碼器配2B解碼器,可以在質量和效率之間遊刃有餘。
在相同的計算量下,T5Gemma性能優於僅解碼器模型,靈活度也更勝一籌,可以根據具體任務調整編碼器和解碼器的大小。
除了Gemma 2的技術回馬槍之外,Gemma 3系列也有重大更新!
Google這次專攻醫療多模態任務,基於Gemma 3架構,推出了MedGemma和MedSigLIP兩款多模態模型。
MedGemma支持圖文輸入,輸出是醫學自由文本;MedSigLIP則是輕量圖文編碼器。
Google把“低資源友好”貫徹到底,MedGemma僅需4B模型即可逼近SoTA,部署門檻極低,單卡、甚至移動端也能輕鬆跑起來。
4億參數的MedSigLIP也是全能王者,不僅擅長醫學圖像,檢索、零樣本分類等非醫學下游任務也手拿把掐。
在Med系列“開源雙子星”的轟炸下,醫療模型閉源壁壘岌岌可危,同行紛紛對Google表示祝賀和期待。
“架構+落地”雙王炸,Google的開源LLM體系戰略殺瘋了。
四兩撥千斤
重燃encoder-decoder架構之戰
T5Gemma基於Gemma 2框架,包括適配後的Gemma 2 2B和9B模型,以及⼀組新訓練的T5尺寸模型(Small、Base、Large 和 XL)。
Google已經將預訓練模型和指令微調模型的T5Gemma系列在huggingface上開源,助⼒社區在研究與開發中挖掘新的機會。
一招適配,暴打原版
不少網友在T5Gemma發佈後紛紛表示,encoder-decoder其實也具有很強的輸入理解、上下文建模和推理能力。
然而,它卻因爲decoder-only架構的風頭無兩而被雪藏已久。
Google四兩撥千斤,僅憑一招“適配”,把encoder-decoder架構重新帶到聚光燈下。
在技術報告中,Google所提出的“模型適配”(Model Adaptation)理念其實非常直觀:
直接利用已完成預訓練的decoder-only模型權重,初始化encoder-decoder模型的參數,然後基於UL2或PrefixLM進行進一步訓練。
具體而言,如圖所示。
Google首先使用一個已經預訓練完成的decoder-only模型,比如Gemma 2 9B或2B。
這個模型包含前饋網絡模塊(FFN)和一個因果自注意力+旋轉位置編碼(ROPE)模塊
原本decoder-only模型中的“因果自注意力”模塊會被替換爲“雙頭注意力”以適配encoder。在encoder中,FFN和ROPE參數繼續沿用原模型。
原始decoder-only中的模塊中間新增一層 Cross-Attention之後,作爲新架構的decoder,用於解碼器從encoder輸出中獲取信息。
在上述結構完成初始化後,模型可以使用UL2或PrefixLM來適應encoder-decoder的信息流、masking策略和解碼方式。
這種適配⽅法具有很⾼的靈活性,允許在模型尺寸之間進⾏創造性的組合。
想法簡單,效果驚人
實驗證明,T5Gemma的想法非常有效。
在相同的推理FLOPs下,T5Gemma的表現(星形點)始終高於或等於decoder-only模型(圓形點)。
在SuperGLUE基準上,T5Gemma的最高分超過90,顯著領先於大多數decoder-only模型。
IT(信息提取)與PT(推理任務)指標同樣展現出encoder-decoder架構的穩健性,特別是在中低FLOPs區間內性能提升尤爲顯著,說明它對計算資源的利用效率更高。
在真實場景下,T5Gemma的高效計算優勢也一路狂飆,穩坐開源性能“性價比之王”。
以GSM8K(數學推理)爲例,T5Gemma 9B-9B的準確率⾼於Gemma 2 9B,但延遲卻相近。
T5Gemma 9B-2B在準確率上遠超2B-2B模型,但其延遲卻幾乎與較⼩的Gemma 2 2B模型相同。
全方位碾壓!T5Gemma不止於快
T5Gemma在預訓練前後都展現出強⼤能⼒。
例如,T5Gemma 9B-9B在GSM8K(數學推理)上得分⽐原始Gemma 2 9B⾼出超過9分,在DROP(閱讀理解)上⾼出4分。
這些提高意味着,通過“適配”進行初始化的encoder-decoder架構潛力更大。
進行指令微調後,Gemma 2與T5Gemma的性能差距在多個任務上進一步顯著擴大。
T5Gemma 2B-2B IT的MMLU得分狂超Gemma 2 2B近12分,GSM8K準確率從58.0%躍升到70.7%。
MedGemma
擊破醫療AI開源壁壘
Google這次盯上了醫療多模態場景,一口氣發佈兩款模型:MedGemma和MedSigLIP。
Med系列多模態模型延續了“低資源友好”的策略。
基於 Gemma 3 打造的MedGemma生成式多模態模型,支持圖像+文本輸入,輸出醫學自由文本。
該模型提供 4B 和 27B 兩種尺寸,4B 多模態版本可在單卡甚至移動設備上運行,一舉把醫學級模型推下了高算力“神壇”。
不管是放射報告生成,還是圖像問答和病例摘要,它都能輕鬆勝任。
在 MedQA 等權威評測中,MedGemma 27B拿下 87.7% 高分,精度接近DeepSeek R1,但推理成本僅爲十分之一!
圖文編碼器MedSigLIP更加短小精悍。
只有 4 億參數,卻能穩穩處理胸片、皮膚病、眼底等多種醫學圖像,並輸出與文本對齊的語義嵌入。
圖像分類、零樣本識別和語義圖像檢索,統統一“模”搞定。
在開發過程中,團隊首先把MedSigLIP訓了出來,作爲醫學優化圖像編碼器。
然後在醫學數據上訓練了4B和27B版本的Gemma 3模型。
通過訓練流程解耦,Gemma 3很好地保留了通用能力。MedGemma在融合醫學與非醫學信息、遵循指令、支持非英文語言等任務上依然表現良好。
單獨訓出來的MedSigLIP是一款僅 4 億參數的輕量醫學圖像編碼器,採用Sigmoid損失的SigLIP架構,如下圖所示。
它的訓練是通過胸片、病理切片、皮膚病圖像與眼底圖像等多樣醫學圖像數據調優完成的。
MedSigLIP的核心目標是,將醫學圖像與文本編碼爲“同一語義空間嵌入向量”。
它在多種醫學圖像任務中的分類效果可媲美專用模型,同時通用性也不拜下風,完美勝任傳統圖像分類、零樣本分類、檢索等任務。
Gemma路線大升級
Google開源吹響反攻號角
Google這波開源一舉把“反攻號角”吹到了醫療AI最前線。
無論是圖文融合的MedSigLIP,還是醫療多語種全能選手MedGemma,全都以safetensors格式上線Hugging Face,直接拉低使用門檻。
開發者可以一鍵下載、靈活部署,還能在本地或自定義雲平臺完成推理與微調,隱私合規和數據安全輕鬆搞定。
不少醫療機構已經驗證了Med系列醫療AI“開源雙子星”的有效性。
例如,美國DeepHealth已開始使用 MedSigLIP 優化胸片分診與結節檢測;臺灣長庚紀念醫院稱MedGemma能很好理解繁體中文醫學文獻,並有效回應醫護問題。
對於醫療機構的不同需求,Google還給出了對應的模型選擇建議。
Hugging Face上已經提供了32個版本的T5Gemma全家桶。
用戶可以根據推理速度、內存預算、精度等個性化需求,自由選擇模型型號,也可以選擇預訓練版、指令微調版、RLHF版,或基於不同目標(PrefixLM / UL2)訓練的各種變體。
不止如此,Google還貼心給出全套使用手冊、Colab示例和Vertex AI部署方案,從下載到上線一路暢通,開發效率直接拉滿。
Gemma路線已經從“架構革新”延伸到“產業落地”。
Google這波上場更新,不止打破了閉源神話,更是爲整個AI社區作出了“工具+自由+性能”的表率。
從T5Gemma到MedGemma,世界級開源模型已來,接下來,是開發者的上場。
參考資料:
https://developers.googleblog.com/en/t5gemma/
https://research.google/blog/medgemma-our-most-capable-open-models-for-health-ai-development/
https://x.com/_philschmid/status/1943013171389780341
(轉自:網易科技)
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。