新浪科技訊 11月3日下午消息,近日,360集團低調開源的視覺語言對齊模型FG-CLIP2在全球科技圈掀起熱議。在涵蓋長短文本圖文檢索、目標檢測等在內的29項權威公開基準測試中,這款模型全面超越了科技巨頭Google的SigLIP 2與Meta的MetaCLIP2,標誌着中國在AI基礎模型領域取得了又一突破性進展。
據介紹,360的FG-CLIP2成功攻克了CLIP模型長期存在的「細粒度識別」痛點,面對包含多個物體的複雜場景,其細節識別置信度仍高達96%。在模型核心上,它實現了三大根本創新:第一,層次化對齊架構,讓模型能像人眼一樣,同時把握宏觀場景與微觀細節,實現從「看得見」到「看得清」的跨越。第二,動態注意力機制,使模型可以智能聚焦於圖像關鍵區域,以最小算力代價換取精準的細節捕捉能力。第三,雙語協同優化策略,從底層解決了中英文理解不平衡的難題,實現了真正的雙語原生支持。
海量資訊、精準解讀,盡在新浪財經APP
責任編輯:劉萬里 SF014