苹果发布LiTo大模型:单图生成3D对象,AI高度还原多视角光影

IT之家
12 hours ago

IT之家 3 月 17 日消息,科技媒体 9to5Mac 昨日(3 月 16 日)发布博文,报道称苹果 AI 研究团队发布研究报告,攻克了 3D 重建领域的一项核心难题:仅通过单张平面图像,就能重建出完整的 3D 对象。

该专利描述名为 LiTo(表面光场标记化)的最新模型,打破了传统方法需要多角度图像输入的限制,在重建 3D 对象之后,用户切换不同观察视角后,该模型生成的反光、高光等光影效果依然能保持高度的物理真实与一致性。

这项突破的核心在于对创新应用“潜在空间”(Latent Space)。在机器学习中,潜在空间能将复杂信息压缩成多维数学向量,从而大幅降低计算成本。

LiTo 模型首创了一种统一的 3D 潜在表示法,将随机采样的表面光场数据编码为紧凑的向量集。这意味着模型无需死记硬背每一个视觉细节,而是通过数学描述,同时掌握了对象的物理形状以及光线与其表面交互的底层规律。

在具体运行机制上,LiTo 编码器负责“压缩信息”,将输入图像中的几何结构和视角相关的外观特征,转化为潜在空间中的精简代码。

随后,解码器执行“逆向解压”,利用这些底层代码完整还原出 3D 对象。这种双向机制让模型能够精准复现复杂光照条件下的镜面高光和菲涅尔反射等高级光影效果。

为打造该模型,苹果研究人员使用了数千个在 150 个不同视角和 3 种光照条件下渲染的 3D 对象进行高强度训练。系统通过不断抽取小部分数据样本,训练解码器在不同光照和视角下还原完整对象。

最终,模型具备了仅凭单张图片就能预测其三维潜在表示的能力。在苹果公布的官方对比测试中,LiTo 在多视角光影还原度上显著超越了现有的 TRELLIS 模型。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10