李飛飛又出手了!開源了1億張授權圖片數據集,重塑視覺生成基準

市場資訊
05/30

  來源:DeepTech深科技

  近日,美國斯坦福大學李飛飛、吳佳俊團隊發布了一個圖片數據集,名字叫做 GPIC,該數據集包含了一億張照片,總像素接近 28 萬億。每張圖片都配有詳細的文字描述,有的是一兩個關鍵詞,有的是五六句話的長段落。

  其最特別的地方在於所有圖片都可免費用於商業和研究,無需擔心版權問題。他們還提供了一個標準的測試方法,讓不同公司的 AI 模型能夠在同樣的規則下比拼生圖能力。

  GPIC 解決了 AI 生圖領域的兩個老大難問題:

  其一解決了版權問題,以前大公司訓練模型使用的圖片很多來路不明以至於惹上官司,而 GPIC 所有圖片的許可證都清清楚楚,商用完全沒問題;

  其二解決了可重複性問題,以前很多數據集給到是圖片鏈接,時間久了鏈接就會失效,別人沒法復現實驗結果。GPIC 把圖片打包成為固定的 tar 文件然後存在 Hugging Face 上,任何時候下載都是一樣的。

  這意味着未來無論是手機裏的修圖軟件、遊戲裏的場景生成器甚至是電影特效工具,都能用上更聰明的 AI 生圖模型。訓練模型需要大量的圖片,以前的做法是從網上到處扒圖,然而很多圖片都有版權,很多時候不敢隨便用。

  https://arxiv.org/abs/2605.30341

  對於使用圖片的研究者來說,不同數據集的測試標準不一樣,A 模型說自己得分很高,B 模型說自己是第一,根本無法公平比較。

  李飛飛等人此次乾脆自己從頭搭建了一套系統,他們從 Flickr 和 Wikimedia 兩個網站收集了超過 1.1 億張圖片,只挑選那些明確允許商用的。收集到的圖片還不能直接使用,有的圖片分辨率太低模糊不清,有的近乎空白,還有些圖片的內容不合適。

  為此,他們使用 Qwen3 VL 4B 模型做自動篩選,把質量差和不安全的圖片踢出去,大約淘汰了百分之一。剩下的一億張照片裏,還有大量的重複內容。對於一些連拍照片、已被轉發傳播的照片以及修改版照片,都需要對其進行去重。

  https://arxiv.org/abs/2605.30341

  他們使用一種名為 SSCD 的拷貝檢測技術,給每一張圖片都生成一個獨一無二的特徵碼,對於那些相似度過高的照片只保留其中一張。經過這套流程之後,最終留下了乾淨的照片。

  圖片準備好了,接下來就是配上文字描述。對於同一種圖片,可以有多種文字描述的方式。針對同一個畫面,李飛飛等人設計了四種描述方式。

  • 首先是標籤式,就是為圖片設定幾個關鍵詞,這種比較適合快速檢索。

  • 其次是短描述式,即使用一兩句話來概括主要內容,方便大衆用戶理解。

  • 再次是中描述式,就是用兩三句話來交代細節和空間關係。

  • 最後是長描述式,就是使用五到七句話把背景、物體位置和文字信息全部寫清楚。

  他們累計給一億張照片設定了描述,短描述和中描述各佔 45%,標籤佔 1%,長描述佔 9%。面對這樣一個工作量巨大的描述工作,肯定不能使用手工來寫。他們使用 Qwen3 VL 4B 模型來批量生成,處理全部圖使用了大約 500 張 H100 顯卡,跑了一個多月。

  https://arxiv.org/abs/2605.30341

  為了驗證 AI 寫的描述到底如何,他們隨機抽取了 1,520 張圖,用人工方式重寫一遍描述,隨後拿着 AI 版本和人工版本作對比。

  對比維度主要有五個,分別是:整體概括準不準、數量數得對不對、空間關係釐沒釐清、顏色材質等屬性綁定是否正確、圖片裏的文字識別得準不準。

  結果顯示 Qwen3 VL 4B 模型在速度和準確率之間取得了最好的平衡,比更大的 Qwen3 VL 30B 模型並沒有慢太多,但是質量卻非常接近。

  為了用好這個數據集,他們設計了一套測試規則,把一億張圖片分成三塊,大部分用來訓練模型,20 萬張用來調試參數,100 萬張作為測試基準。訓練 AI 生圖模型的時候,只能使用那 100 萬張測試集裏的 5 萬條描述去生成圖片,接着和 100 萬張真實圖片做對比,看哪個模型生成得最像。

  用來比較的指標叫做 FD DINOv2,它使用 DINOv2 這個視覺模型來提取圖片的特徵,然後再計算生成圖和真實圖之間的統計距離。

  https://arxiv.org/abs/2605.30341

  他們還訓練了一個參考模型作為基準,使用的是 JiT 架構,這是一種直接在像素空間裏做流匹配的模型,參數為 1.1 億,在 GPIC 訓練了一個周期,用了大約 40 個小時,8 張 H100 顯卡。最好結果的 FD DINOv2 得分為 76.25,這個分數不算高,不過從論文來看他們並不打算衝高分,只是給後來者立個標杆。相關論文的第一作者是李飛飛團隊的博士生 Keshigeyan Chandrasegaran。

  對於 AI 生圖來說,GPIC 好比為其提供了一本教科書,它不僅免費、開放、標準統一,還附帶考試大綱,一定程度上可以為 AI 公司提供一個可以公平比較的標準。

  參考資料:

  相關論文 https://arxiv.org/abs/2605.30341

  https://keshik6.github.io/

  排版:胡巍巍

海量資訊、精準解讀,盡在新浪財經APP

責任編輯:張恒星

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10