以「模塑全球無限可能」為主題的2025GDC全球開發者先鋒大會於2月21日-2月23日在上海徐匯舉辦,旨在探索大模型產業化解決方案,推進場景落地應用,實現商業模式的正向閉環。
在2月22日的商湯大模型生產力論壇上,商湯絕影CEO,商湯科技聯合創始人、首席科學家王曉剛重磅發布了行業首個與世界模型協同交互的端到端自動駕駛路線R-UniAD,通過構建世界模型生成在線交互的仿真環境,以此進行端到端模型的強化學習訓練。這與春節開始持續受到市場關注的DeepSeek技術創新思路同歸一源:從模仿學習向強化學習升級演進,從而實現端到端自動駕駛超越人類的駕駛表現。

(商湯絕影CEO,商湯科技聯合創始人、首席科學家王曉剛發布與世界模型協同交互的端到端自動駕駛路線R-UniAD。)
強化學習的技術創新可遷移到端到端自動駕駛領域
「算法、算力和數據三者共同推動着人工智能技術的螺旋式上升和進步,隨着強化學習等算法引入到大模型訓練的思路得到驗證,新的尺度定律正在開啓,數據價值被進一步深入挖掘,模型能力天花板被打開。」王曉剛表示,強化學習的技術創新也同樣可以遷移到端到端自動駕駛領域。
基於UniAD端到端自動駕駛方案和開悟世界模型,商湯絕影R-UniAD將通過強化學習加速智駕跨越式演進。在4月即將到來的上海車展上,商湯絕影將重磅發布R-UniAD端到端自動駕駛方案,並完成實車部署,持續引領端到端智駕技術的潮流。
今年春節期間,DeepSeek-R1基於純強化學習的關鍵創新引發了廣泛的關注。通過少量高質量數據的冷啓動,模型進行多階段的強化學習訓練,有效降低大模型訓練的數據規模門檻,同時也讓尺度定律得以延續,為模型變得更大更強鋪平了道路。更重要的是,強化學習能夠讓大模型自行湧現出長思維鏈能力,顯著提升推理效果,甚至可能具備超越人類的思維能力。
王曉剛表示,基於強化學習的大模型技術路線可以遷移到端到端自動駕駛算法的訓練與研發之中。

(基於強化學習,商湯絕影提出與世界模型協同交互的端到端技術路線)
從數據規模來看,多階段強化學習的訓練方法能大幅降低端到端自動駕駛數據規模門檻。R-UniAD就是通過高質量數據進行冷啓動,用模仿學習的方式訓練出一個端到端基礎模型,再通過強化學習方法進行訓練。據測算,小樣本多階段學習的技術路線能讓端到端自動駕駛的數據需求降低一個數量級,讓車企合作伙伴有望換道超車特斯拉FSD。
從性能上限來看,純強化學習訓練讓端到端智駕模型有望通過在提升性能的同時,充分探索多元場景和駕駛風格。未來,端到端智駕體驗的上限不再是「類人」,而是可以擁有超越人類的駕駛表現。
商湯絕影發布與世界模型協同交互的端到端自動駕駛技術路線R-UniAD
2月22日,商湯絕影率先發布與世界模型協同交互的端到端自動駕駛技術路線R-UniAD,成為行業首個將基於世界模型的強化學習引入端到端智駕的研發與訓練的AI公司。
商湯絕影的R-UniAD是多階段強化學習端到端自動駕駛技術路線,具體分為三個階段,首先是依靠冷啓動數據通過模仿學習進行雲端的端到端自動駕駛大模型訓練;然後基於強化學習,讓雲端的端到端大模型與世界模型協同交互,持續提升端到端模型的性能;最後雲端大模型通過高效蒸餾的方式,實現高性能端到端自動駕駛小模型的車端部署。

(商湯絕影R-UniAD:「多階段強化學習」端到端自動駕駛技術路線)
因為端到端智駕模型是一個多模態具身模型,最關鍵的是要與依靠世界模型生成的仿真環境進行在線交互,並獲得閉環獎勵反饋,從而實現強化學習,使得端到端模型的訓練能夠充分探索各種可能性。也就是說,能夠生成高保真的場景數據、保證長時推演一致性、並支持在線交互的強大世界模型是R-UniAD的核心基石。
在現場演示中,商湯絕影展示了「開悟」世界模型與主車閉環交互的方式。通過場景庫文件導入一個BEV視角下的初始主車和他車位置,世界模型自動生成主車視角下11V(11個攝像頭)的傳感器仿真數據,端到端模型接收到這一數據後,生成自車下一時刻位置並進行反饋,世界模型根據刷新的主車位置和預測的他車位置渲染新的11V傳感器仿真數據。
商湯絕影的量產端到端智駕方案預計將在年底交付,「開悟」世界模型也正式用於數據生產,已經搶佔新技術路線的先機。而在4月的上海車展,商湯絕影將會展示與世界模型協同交互的端到端自動駕駛方案的實車部署。
(文章來源:廣州日報)