金融界2025年7月30日消息,国家知识产权局信息显示,谷歌有限责任公司申请一项名为“经由掩蔽的生成TRANSFORMER的文本到图像生成”的专利,公开号CN120390939A,申请日期为2023年12月。
专利摘要显示,提供了文本到图像Transformer模型,其实现最先进的图像生成性能,同时比扩散或自回归模型显著更高效。本文描述的一些示例模型可在离散词元空间中的掩蔽的建模任务上进行训练。在给定从预训练的大型语言模型(LLM)中提取的文本嵌入的情况下,可训练示例模型来预测随机掩蔽的图像词元。与诸如Imagen和DALL‑E 2的像素空间扩散模型相比,本文描述的示例模型由于使用了离散词元而明显更高效。与诸如Parti的自回归模型相比,本文描述的示例模型由于使用了并行解码而更高效。预训练的LLM的使用实现了细粒度的语言理解,从而转化为高保真图像生成以及对诸如对象、其空间关系、姿势、基数等的视觉概念的理解。