英伟达发布Eagle2.5视觉语言AI模型:8B参数媲美GPT-4o

IT之家
23 Apr

IT之家4月23日消息,科技媒体marktechpost昨日(4月22日)发布博文,报道称英伟达最新推出Eagle2.5,一款专注于长上下文多模态学习的视觉-语言模型(VLM)。

该模型专注于理解大规模视频和图像,尤其擅长处理高分辨率图像和长视频序列。尽管参数规模仅为 8B,Eagle2.5在Video-MME基准测试(512 帧输入)中得分高达72.4%,媲美Qwen2.5-VL-72B和InternVL2.5-78B等更大规模模型。

创新训练策略

Eagle2.5的成功离不开两项关键训练策略:信息优先采样(Information-First Sampling)和渐进式后训练(Progressive Post-Training)。

信息优先采样通过图像区域保留(IAP)技术,保留超过 60% 的原始图像区域,同时减少宽高比失真;自动降级采样(ADS)则根据上下文长度动态平衡视觉和文本输入,确保文本完整性和视觉细节的优化。

渐进式后训练逐步扩展模型上下文窗口,从32K到128K token,让模型在不同输入长度下保持稳定性能,避免过拟合单一上下文范围。这些策略结合SigLIP视觉编码和MLP投影层,确保了模型在多样化任务中的灵活性。

定制数据集

Eagle2.5的训练数据管道,整合了开源资源和定制数据集 Eagle-Video-110K,该数据集专为理解长视频设计,采用双重标注方式。

自上而下的方法采用故事级分割,结合人类标注章节元数据、GPT-4生成的密集描述;自下而上的方法则利用GPT-4o为短片段生成问答对,抓取时空细节。

通过余弦相似度(cosine similarity)筛选,数据集强调多样性而非冗余,确保叙事连贯性和细粒度标注,显著提升了模型在高帧数(≥128帧)任务中的表现。

性能表现

Eagle2.5-8B在多项视频和图像理解任务中表现出色。在视频基准测试中,MVBench得分为74.8,MLVU为77.6,LongVideoBench为66.4;在图像基准测试中,DocVQA得分为 94.1,ChartQA为87.5,InfoVQA为80.4。

消融研究(Ablation studies)表明,IAP 和 ADS 的移除会导致性能下降,而渐进式训练和Eagle-Video-110K数据集的加入则带来更稳定的提升。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10