谷歌申請經由掩蔽的生成TRANSFORMER的文本到圖像生成專利,實現最先進的圖像生成性能

金融界
07-30

金融界2025年7月30日消息,國家知識產權局信息顯示,谷歌有限責任公司申請一項名爲“經由掩蔽的生成TRANSFORMER的文本到圖像生成”的專利,公開號CN120390939A,申請日期爲2023年12月。

專利摘要顯示,提供了文本到圖像Transformer模型,其實現最先進的圖像生成性能,同時比擴散或自迴歸模型顯著更高效。本文描述的一些示例模型可在離散詞元空間中的掩蔽的建模任務上進行訓練。在給定從預訓練的大型語言模型(LLM)中提取的文本嵌入的情況下,可訓練示例模型來預測隨機掩蔽的圖像詞元。與諸如Imagen和DALL‑E 2的像素空間擴散模型相比,本文描述的示例模型由於使用了離散詞元而明顯更高效。與諸如Parti的自迴歸模型相比,本文描述的示例模型由於使用了並行解碼而更高效。預訓練的LLM的使用實現了細粒度的語言理解,從而轉化爲高保真圖像生成以及對諸如對象、其空間關係、姿勢、基數等的視覺概念的理解。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10