英偉達發佈Eagle2.5視覺語言AI模型：8B參數媲美GPT-4o

IT之家

04-23

IT之家4月23日消息，科技媒體marktechpost昨日（4月22日）發佈博文，報道稱英偉達最新推出Eagle2.5，一款專注於長上下文多模態學習的視覺-語言模型（VLM）。

該模型專注於理解大規模視頻和圖像，尤其擅長處理高分辨率圖像和長視頻序列。儘管參數規模僅爲 8B，Eagle2.5在Video-MME基準測試（512 幀輸入）中得分高達72.4%，媲美Qwen2.5-VL-72B和InternVL2.5-78B等更大規模模型。

創新訓練策略

Eagle2.5的成功離不開兩項關鍵訓練策略：信息優先採樣（Information-First Sampling）和漸進式後訓練（Progressive Post-Training）。

信息優先採樣通過圖像區域保留（IAP）技術，保留超過 60% 的原始圖像區域，同時減少寬高比失真；自動降級採樣（ADS）則根據上下文長度動態平衡視覺和文本輸入，確保文本完整性和視覺細節的優化。

漸進式後訓練逐步擴展模型上下文窗口，從32K到128K token，讓模型在不同輸入長度下保持穩定性能，避免過擬合單一上下文範圍。這些策略結合SigLIP視覺編碼和MLP投影層，確保了模型在多樣化任務中的靈活性。

定製數據集

Eagle2.5的訓練數據管道，整合了開源資源和定製數據集 Eagle-Video-110K，該數據集專爲理解長視頻設計，採用雙重標註方式。

自上而下的方法採用故事級分割，結合人類標註章節元數據、GPT-4生成的密集描述；自下而上的方法則利用GPT-4o爲短片段生成問答對，抓取時空細節。

通過餘弦相似度（cosine similarity）篩選，數據集強調多樣性而非冗餘，確保敘事連貫性和細粒度標註，顯著提升了模型在高幀數（≥128幀）任務中的表現。

性能表現

Eagle2.5-8B在多項視頻和圖像理解任務中表現出色。在視頻基準測試中，MVBench得分爲74.8，MLVU爲77.6，LongVideoBench爲66.4；在圖像基準測試中，DocVQA得分爲 94.1，ChartQA爲87.5，InfoVQA爲80.4。

消融研究（Ablation studies）表明，IAP 和 ADS 的移除會導致性能下降，而漸進式訓練和Eagle-Video-110K數據集的加入則帶來更穩定的提升。

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

英偉達發佈Eagle2.5視覺語言AI模型：8B參數媲美GPT-4o

熱議股票