新浪科技訊 6月2日下午消息,NVIDIA近日發布NVIDIA Cosmos™ 3——面向物理AI的開放世界基礎模型,宣佈基於突破性的混合 Transformer (Mixture-of-Transformers)架構,將視覺推理、世界生成和動作預測集成至單一系統中,解決了物理 AI 的一項核心難題:使機器人、智能汽車或視覺智能體能夠在訓練數據有限和仿真堆棧碎片化的情況下,在現實世界中進行泛化。

據悉,Cosmos 3能夠以領先的物理精度原生理解並生成文本、圖像、視頻、環境音和動作,將物理 AI 的訓練和評估周期從數月縮短至數天。該模型的混合Transformer架構將推理Transformer與專家生成Transformer相結合,使得Cosmos 3 能夠在生成視頻和動作軌跡前,完成對對象交互、運動及時空關係的解析。
在物理 AI 基準測試中,Cosmos 3 系列模型取得了領先結果。在Artificial Analysis、Physics-IQ、PAI-Bench 和R-Bench 的世界生成精確性方面,RoboLab 和RoboArena 的動作策略方面,以及VANTAGE-Bench 和TAR排行榜的視覺理解方面,Cosmos 3均位居榜首。
在最大型的多模態物理 AI 數據集之一上進行訓練——包括數十億條文本、圖像、視頻、聲音和動作軌跡樣本中,該模型為開發者提供了強大的預訓練基礎,助力其以更少的數據和更低的訓練成本構建物理AI系統。
NVIDIA 創始人兼首席執行官黃仁勳表示:「得益於多模態推理語言、視覺和世界模型領域的多項突破,物理AI爆發的時代已近在眼前。Cosmos 3系列開放前沿全模態模型,助力開發者在構建機器人、智能汽車和視覺AI方面實現了代際飛躍,使其能夠在物理世界中完成感知、推理、規劃並採取行動。」(文猛)
責任編輯:孫同懷