李飛飛又出手了！開源了1億張授權圖片數據集，重塑視覺生成基準

　　來源：DeepTech深科技

　　近日，美國斯坦福大學李飛飛、吳佳俊團隊發布了一個圖片數據集，名字叫做 GPIC，該數據集包含了一億張照片，總像素接近 28 萬億。每張圖片都配有詳細的文字描述，有的是一兩個關鍵詞，有的是五六句話的長段落。

　　其最特別的地方在於所有圖片都可免費用於商業和研究，無需擔心版權問題。他們還提供了一個標準的測試方法，讓不同公司的 AI 模型能夠在同樣的規則下比拼生圖能力。

　　GPIC 解決了 AI 生圖領域的兩個老大難問題：

　　其一解決了版權問題，以前大公司訓練模型使用的圖片很多來路不明以至於惹上官司，而 GPIC 所有圖片的許可證都清清楚楚，商用完全沒問題；

　　其二解決了可重複性問題，以前很多數據集給到是圖片鏈接，時間久了鏈接就會失效，別人沒法復現實驗結果。GPIC 把圖片打包成為固定的 tar 文件然後存在 Hugging Face 上，任何時候下載都是一樣的。

　　這意味着未來無論是手機裏的修圖軟件、遊戲裏的場景生成器甚至是電影特效工具，都能用上更聰明的 AI 生圖模型。訓練模型需要大量的圖片，以前的做法是從網上到處扒圖，然而很多圖片都有版權，很多時候不敢隨便用。

　　https：//arxiv.org/abs/2605.30341）

　　對於使用圖片的研究者來說，不同數據集的測試標準不一樣，A 模型說自己得分很高，B 模型說自己是第一，根本無法公平比較。

　　李飛飛等人此次乾脆自己從頭搭建了一套系統，他們從 Flickr 和 Wikimedia 兩個網站收集了超過 1.1 億張圖片，只挑選那些明確允許商用的。收集到的圖片還不能直接使用，有的圖片分辨率太低模糊不清，有的近乎空白，還有些圖片的內容不合適。

　　為此，他們使用 Qwen3 VL 4B 模型做自動篩選，把質量差和不安全的圖片踢出去，大約淘汰了百分之一。剩下的一億張照片裏，還有大量的重複內容。對於一些連拍照片、已被轉發傳播的照片以及修改版照片，都需要對其進行去重。

　　https：//arxiv.org/abs/2605.30341）

　　他們使用一種名為 SSCD 的拷貝檢測技術，給每一張圖片都生成一個獨一無二的特徵碼，對於那些相似度過高的照片只保留其中一張。經過這套流程之後，最終留下了乾淨的照片。

　　圖片準備好了，接下來就是配上文字描述。對於同一種圖片，可以有多種文字描述的方式。針對同一個畫面，李飛飛等人設計了四種描述方式。

首先是標籤式，就是為圖片設定幾個關鍵詞，這種比較適合快速檢索。
其次是短描述式，即使用一兩句話來概括主要內容，方便大衆用戶理解。
再次是中描述式，就是用兩三句話來交代細節和空間關係。
最後是長描述式，就是使用五到七句話把背景、物體位置和文字信息全部寫清楚。

　　他們累計給一億張照片設定了描述，短描述和中描述各佔 45%，標籤佔 1%，長描述佔 9%。面對這樣一個工作量巨大的描述工作，肯定不能使用手工來寫。他們使用 Qwen3 VL 4B 模型來批量生成，處理全部圖使用了大約 500 張 H100 顯卡，跑了一個多月。

　　https：//arxiv.org/abs/2605.30341）

　　為了驗證 AI 寫的描述到底如何，他們隨機抽取了 1，520 張圖，用人工方式重寫一遍描述，隨後拿着 AI 版本和人工版本作對比。

　　對比維度主要有五個，分別是：整體概括準不準、數量數得對不對、空間關係釐沒釐清、顏色材質等屬性綁定是否正確、圖片裏的文字識別得準不準。

　　結果顯示 Qwen3 VL 4B 模型在速度和準確率之間取得了最好的平衡，比更大的 Qwen3 VL 30B 模型並沒有慢太多，但是質量卻非常接近。

　　為了用好這個數據集，他們設計了一套測試規則，把一億張圖片分成三塊，大部分用來訓練模型，20 萬張用來調試參數，100 萬張作為測試基準。訓練 AI 生圖模型的時候，只能使用那 100 萬張測試集裏的 5 萬條描述去生成圖片，接着和 100 萬張真實圖片做對比，看哪個模型生成得最像。

　　用來比較的指標叫做 FD DINOv2，它使用 DINOv2 這個視覺模型來提取圖片的特徵，然後再計算生成圖和真實圖之間的統計距離。

　　https：//arxiv.org/abs/2605.30341）

　　他們還訓練了一個參考模型作為基準，使用的是 JiT 架構，這是一種直接在像素空間裏做流匹配的模型，參數為 1.1 億，在 GPIC 訓練了一個周期，用了大約 40 個小時，8 張 H100 顯卡。最好結果的 FD DINOv2 得分為 76.25，這個分數不算高，不過從論文來看他們並不打算衝高分，只是給後來者立個標杆。相關論文的第一作者是李飛飛團隊的博士生 Keshigeyan Chandrasegaran。

　　對於 AI 生圖來說，GPIC 好比為其提供了一本教科書，它不僅免費、開放、標準統一，還附帶考試大綱，一定程度上可以為 AI 公司提供一個可以公平比較的標準。

　　參考資料：

　　相關論文 https：//arxiv.org/abs/2605.30341

　　https：//keshik6.github.io/

　　排版：胡巍巍

海量資訊、精準解讀，盡在新浪財經APP

責任編輯：張恒星

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

李飛飛又出手了！開源了1億張授權圖片數據集，重塑視覺生成基準

熱議股票