金融界2025年7月30日消息,国家知识产权局信息显示,谷歌有限责任公司申请一项名为“经由掩蔽的生成TRANSFORMER的文本到图像生成”的专利,公开号CN120390939A,申请日期为2023年12月。
专利摘要显示,提供了文本到图像Transformer模型,其实现最先进的图像生成性能,同时比扩散或自回归模型显著更高效。本文描述的一些示例模型可在离散词元空间中的掩蔽的建模任务上进行训练。在给定从预训练的大型语言模型(LLM)中提取的文本嵌入的情况下,可训练示例模型来预测随机掩蔽的图像词元。与诸如Imagen和DALL‑E 2的像素空间扩散模型相比,本文描述的示例模型由于使用了离散词元而明显更高效。与诸如Parti的自回归模型相比,本文描述的示例模型由于使用了并行解码而更高效。预训练的LLM的使用实现了细粒度的语言理解,从而转化为高保真图像生成以及对诸如对象、其空间关系、姿势、基数等的视觉概念的理解。
免责声明:投资有风险,本文并非投资建议,以上内容不应被视为任何金融产品的购买或出售要约、建议或邀请,作者或其他用户的任何相关讨论、评论或帖子也不应被视为此类内容。本文仅供一般参考,不考虑您的个人投资目标、财务状况或需求。TTM对信息的准确性和完整性不承担任何责任或保证,投资者应自行研究并在投资前寻求专业建议。