金融界2025年7月30日消息,國家知識產權局信息顯示,谷歌有限責任公司申請一項名為「經由掩蔽的生成TRANSFORMER的文本到圖像生成」的專利,公開號CN120390939A,申請日期為2023年12月。
專利摘要顯示,提供了文本到圖像Transformer模型,其實現最先進的圖像生成性能,同時比擴散或自迴歸模型顯著更高效。本文描述的一些示例模型可在離散詞元空間中的掩蔽的建模任務上進行訓練。在給定從預訓練的大型語言模型(LLM)中提取的文本嵌入的情況下,可訓練示例模型來預測隨機掩蔽的圖像詞元。與諸如Imagen和DALL‑E 2的像素空間擴散模型相比,本文描述的示例模型由於使用了離散詞元而明顯更高效。與諸如Parti的自迴歸模型相比,本文描述的示例模型由於使用了並行解碼而更高效。預訓練的LLM的使用實現了細粒度的語言理解,從而轉化為高保真圖像生成以及對諸如對象、其空間關係、姿勢、基數等的視覺概念的理解。