谷歌T5Gemma重燃架构之战!“套壳”反杀Gemma本尊,9B推理快得离谱

市场资讯
14 Jul

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

新智元报道

编辑:海狸

【新智元导读】Google双线出击!T5Gemma重燃encoder-decoder架构战火,性能暴涨12分;MedGemma坚守decoder-only路线,强攻医疗多模态,击穿闭源壁垒。Gemma体系完成“架构+落地”双重进化,打响Google开源反击战。

2023年以来,大模型的战场由decoder-only架构一统江湖。

从GPT家族到LLaMA、Gemma、Mistral,再到Claude、Command-R、Yi系列,

能叫得出名字的主流LLM,几乎都是清一色的“纯解码器”(decoder-only)。

但今天,Google带着T5Gemma杀回来了——

不仅重启了encoder-decoder的技术路线,还略施小技就让它原地起飞,暴打原版Gemma 2。

T5Gemma本身基于decoder-only的Gemma 2框架。

神奇的是,通过简单的“适配”转换成encoder-decoder架构后,T5Gemma一举实现性能飞跃。

T5Gemma 9B-9B在GSM8K(数学推理)上得分⽐原始Gemma 2 9B⾼出9分,在DROP(阅读理解)上⾼出4分。

进一步缩小参数量,结果反而更惊人!

T5Gemma 2B-2B IT的MMLU得分⽐Gemma 2 2B提高了近12分,GSM8K准确率暴涨到70.7%。

T5Gemma主要面向文本生成任务,包括问答系统、数学推理、阅读理解等。

并且encoder-decoder的架构支持“不平衡”配置。如9B编码器配2B解码器,可以在质量和效率之间游刃有余。

在相同的计算量下,T5Gemma性能优于仅解码器模型,灵活度也更胜一筹,可以根据具体任务调整编码器和解码器的大小。

除了Gemma 2的技术回马枪之外,Gemma 3系列也有重大更新!

Google这次专攻医疗多模态任务,基于Gemma 3架构,推出了MedGemma和MedSigLIP两款多模态模型。

MedGemma支持图文输入,输出是医学自由文本;MedSigLIP则是轻量图文编码器。

Google把“低资源友好”贯彻到底,MedGemma仅需4B模型即可逼近SoTA,部署门槛极低,单卡、甚至移动端也能轻松跑起来。

4亿参数的MedSigLIP也是全能王者,不仅擅长医学图像,检索、零样本分类等非医学下游任务也手拿把掐。

在Med系列“开源双子星”的轰炸下,医疗模型闭源壁垒岌岌可危,同行纷纷对Google表示祝贺和期待。

“架构+落地”双王炸,Google的开源LLM体系战略杀疯了。

四两拨千斤

重燃encoder-decoder架构之战

T5Gemma基于Gemma 2框架,包括适配后的Gemma 2 2B和9B模型,以及⼀组新训练的T5尺寸模型(Small、Base、Large 和 XL)。

Google已经将预训练模型和指令微调模型的T5Gemma系列在huggingface上开源,助⼒社区在研究与开发中挖掘新的机会。

一招适配,暴打原版

不少网友在T5Gemma发布后纷纷表示,encoder-decoder其实也具有很强的输入理解、上下文建模和推理能力。

然而,它却因为decoder-only架构的风头无两而被雪藏已久。

Google四两拨千斤,仅凭一招“适配”,把encoder-decoder架构重新带到聚光灯下。

在技术报告中,Google所提出的“模型适配”(Model Adaptation)理念其实非常直观:

直接利用已完成预训练的decoder-only模型权重,初始化encoder-decoder模型的参数,然后基于UL2或PrefixLM进行进一步训练。

具体而言,如图所示。

Google首先使用一个已经预训练完成的decoder-only模型,比如Gemma 2 9B或2B。

这个模型包含前馈网络模块(FFN)和一个因果自注意力+旋转位置编码(ROPE)模块

原本decoder-only模型中的“因果自注意力”模块会被替换为“双头注意力”以适配encoder。在encoder中,FFN和ROPE参数继续沿用原模型。

原始decoder-only中的模块中间新增一层 Cross-Attention之后,作为新架构的decoder,用于解码器从encoder输出中获取信息。

在上述结构完成初始化后,模型可以使用UL2或PrefixLM来适应encoder-decoder的信息流、masking策略和解码方式。

这种适配⽅法具有很⾼的灵活性,允许在模型尺寸之间进⾏创造性的组合。

想法简单,效果惊人

实验证明,T5Gemma的想法非常有效。

在相同的推理FLOPs下,T5Gemma的表现(星形点)始终高于或等于decoder-only模型(圆形点)。

在SuperGLUE基准上,T5Gemma的最高分超过90,显著领先于大多数decoder-only模型。

IT(信息提取)与PT(推理任务)指标同样展现出encoder-decoder架构的稳健性,特别是在中低FLOPs区间内性能提升尤为显著,说明它对计算资源的利用效率更高。

在真实场景下,T5Gemma的高效计算优势也一路狂飙,稳坐开源性能“性价比之王”。

以GSM8K(数学推理)为例,T5Gemma 9B-9B的准确率⾼于Gemma 2 9B,但延迟却相近。

T5Gemma 9B-2B在准确率上远超2B-2B模型,但其延迟却几乎与较⼩的Gemma 2 2B模型相同。

全方位碾压!T5Gemma不止于快

T5Gemma在预训练前后都展现出强⼤能⼒。

例如,T5Gemma 9B-9B在GSM8K(数学推理)上得分⽐原始Gemma 2 9B⾼出超过9分,在DROP(阅读理解)上⾼出4分。

这些提高意味着,通过“适配”进行初始化的encoder-decoder架构潜力更大。

进行指令微调后,Gemma 2与T5Gemma的性能差距在多个任务上进一步显著扩大。

T5Gemma 2B-2B IT的MMLU得分狂超Gemma 2 2B近12分,GSM8K准确率从58.0%跃升到70.7%。

MedGemma

击破医疗AI开源壁垒

Google这次盯上了医疗多模态场景,一口气发布两款模型:MedGemma和MedSigLIP。

Med系列多模态模型延续了“低资源友好”的策略。

基于 Gemma 3 打造的MedGemma生成式多模态模型,支持图像+文本输入,输出医学自由文本。

该模型提供 4B 和 27B 两种尺寸,4B 多模态版本可在单卡甚至移动设备上运行,一举把医学级模型推下了高算力“神坛”。

不管是放射报告生成,还是图像问答和病例摘要,它都能轻松胜任。

在 MedQA 等权威评测中,MedGemma 27B拿下 87.7% 高分,精度接近DeepSeek R1,但推理成本仅为十分之一!

图文编码器MedSigLIP更加短小精悍。

只有 4 亿参数,却能稳稳处理胸片、皮肤病、眼底等多种医学图像,并输出与文本对齐的语义嵌入。

图像分类、零样本识别和语义图像检索,统统一“模”搞定。

在开发过程中,团队首先把MedSigLIP训了出来,作为医学优化图像编码器。

然后在医学数据上训练了4B和27B版本的Gemma 3模型。

通过训练流程解耦,Gemma 3很好地保留了通用能力。MedGemma在融合医学与非医学信息、遵循指令、支持非英文语言等任务上依然表现良好。

单独训出来的MedSigLIP是一款仅 4 亿参数的轻量医学图像编码器,采用Sigmoid损失的SigLIP架构,如下图所示。

它的训练是通过胸片、病理切片、皮肤病图像与眼底图像等多样医学图像数据调优完成的。

MedSigLIP的核心目标是,将医学图像与文本编码为“同一语义空间嵌入向量”。

它在多种医学图像任务中的分类效果可媲美专用模型,同时通用性也不拜下风,完美胜任传统图像分类、零样本分类、检索等任务。

Gemma路线大升级

Google开源吹响反攻号角

Google这波开源一举把“反攻号角”吹到了医疗AI最前线。

无论是图文融合的MedSigLIP,还是医疗多语种全能选手MedGemma,全都以safetensors格式上线Hugging Face,直接拉低使用门槛。

开发者可以一键下载、灵活部署,还能在本地或自定义云平台完成推理与微调,隐私合规和数据安全轻松搞定。

不少医疗机构已经验证了Med系列医疗AI“开源双子星”的有效性。

例如,美国DeepHealth已开始使用 MedSigLIP 优化胸片分诊与结节检测;台湾长庚纪念医院称MedGemma能很好理解繁体中文医学文献,并有效回应医护问题。

对于医疗机构的不同需求,Google还给出了对应的模型选择建议。

Hugging Face上已经提供了32个版本的T5Gemma全家桶。

用户可以根据推理速度、内存预算、精度等个性化需求,自由选择模型型号,也可以选择预训练版、指令微调版、RLHF版,或基于不同目标(PrefixLM / UL2)训练的各种变体。

不止如此,Google还贴心给出全套使用手册、Colab示例和Vertex AI部署方案,从下载到上线一路畅通,开发效率直接拉满。

Gemma路线已经从“架构革新”延伸到“产业落地”。

Google这波上场更新,不止打破了闭源神话,更是为整个AI社区作出了“工具+自由+性能”的表率。

从T5Gemma到MedGemma,世界级开源模型已来,接下来,是开发者的上场。

参考资料:

https://developers.googleblog.com/en/t5gemma/

https://research.google/blog/medgemma-our-most-capable-open-models-for-health-ai-development/

https://x.com/_philschmid/status/1943013171389780341

(转自:网易科技)

海量资讯、精准解读,尽在新浪财经APP

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10