商湯日日新開源模型實現空間智能性能突破,多項評測領先 GPT-5

商湯科技SenseT...
11/10

今天,商湯日日新在空間智能領域實現重要突破,正式發佈並開源SenseNova-SI系列模型。在多項權威評測的空間理解和推理任務上,SenseNova-SI不僅大幅度領先同量級開源多模態大模型,還超越了GPT-5和Gemini 2.5 Pro等國際頂尖閉源模型的表現。

空間智能短板與系統性解決

當下行業領先的大模型,雖然在知識、寫作、推理、編程等方面展示了突出的性能,但是普遍存在一個重要的缺陷,就是對空間結構的理解和推理存在很嚴重的短板,而這恰恰是具身智能體與世界交互所需要的關鍵基礎能力。

我們來看一個例子,左圖源自最強大腦的圖形推理題,對人類都具有相當的難度,GPT-5能夠輕鬆破解,可見它在非空間智能問題上已具備很強能力。反觀右圖,是一道人類兒童都能輕易解決的簡單空間問題,要求選擇正確俯視圖,GPT-5卻令人意外地犯起了難,錯誤地選擇了「A」。

以上例子恰好暴露了當前大模型在空間理解上的短板。因此要讓AI真正"看懂"三維世界,空間智能一直是關鍵的試金石。

商湯圍繞空間智能進行了深入創新探索,找到了提升空間智能的系統性訓練方法,打造了日日新·空間智能大模型系列SenseNova-SI。

評測表現多項任務超越GPT-5

顯著領先同量級開源模型

這次開源的SenseNova-SI空間智能大模型系列包括2B和8B兩個規格。

最新評測數據顯示,SenseNova-SI系列模型在空間智能多個基準測試(VSI、MMSI、MindCube、ViewSpatial)中表現突出,具體如下:

數據來源:https://github.com/OpenSenseNova/SenseNova-SI

其中SenseNova-SI-8B模型在四個基本評測中獲得60.99的平均成績,不僅大幅領先Qwen3-VL-8B(40.16)、BAGEL-7B(35.01)等開源通用多模態模型,以及SpatialMLLM(35.05)、ViLaSR-7B(36.41) 等專門的空間智能模型,還以相對輕量的模型規格實現了對GPT-5(49.68)、Gemini-2.5-Pro(48.81)等頂級閉源模型的超越。這裏顯著的性能提升反映了模型在空間智能上獲得了質的突破,而不是簡單的性能改善。

基於「尺度效應」的訓練範式

實現能力系統性提升

SenseNova-SI的性能飛躍,源於商湯從訓練數據到方法上的系統性方案。依託商湯提出的空間能力分類體系和過往多樣化的數據的積累,團隊採用系統化的方法擴充空間理解數據的規模,首次在空間智能領域驗證了「尺度效應」,即通過高質量、大規模數據訓練,可顯著提升模型的空間認知能力。

商湯提出的訓練範式具備通用性,能夠針對不同架構的基模型(如InternVL等)進行有效增強,使其在空間智能六大核心維度上——包括空間測量、空間重構、空間關係、視角轉換、空間形變與空間推理——實現一致性的能力提升。

商湯稍後將發佈詳細的技術報告,詳細闡述具體的技術方案。

以下為GPT-5和SenseNova-SI-8B模型面對空間智能問題,給出的答案對比。

↑↑給出的立方體組合圖形,要求選擇正確俯視圖。GPT-5選擇答案D,SenseNova-SI-8B選擇答案B,正確答案為B。(例題源自SITE-Bench)

↑↑假設我站在手持相機人的位置,並且面朝他現在面朝的方向,摩托車是位於我的左側還是右側?GPT-5選擇答案A(左側),SenseNova-SI-8B選擇答案B,正確答案為B(右側)。(例題源自SITE-Bench)

↑↑多車道道路場景,判斷黃色汽車的後續動作(如直行、轉向等)。GPT-5選擇答案C(靜止),SenseNova-SI-8B選擇答案(D),正確答案為D(右轉)。(例題源自SITE-Bench)

↑↑同一戶外場景,通過視角變化判斷移動方向。GPT-5選擇答案C,SenseNova-SI-8B選擇答案D,正確答案為向左前方移動(選項D)。(例題源自MindCube)

↑↑同一室內空間,包含白板、椅子和沙發等,通過物體位置變化分析移動方向。GPT-5選擇答案D,SenseNova-SI-8B選擇答案A,正確答案為向左前方移動(選項A)。(例題源自MindCube)

↑↑從不同角度拍攝帶黑色衣物的桌子,從正面視角(圖1)判斷桌子右側物體。GPT-5選擇答案B,SenseNova-SI-8B選擇答案C,正確答案為門(選項C)。(例題源自MindCube)

推動世界模型和

具身智能生態發展

空間智能是世界模型與具身智能理解物理世界的基礎能力。今年7月,商湯正式發佈「悟能」具身智能平臺,該平臺以商湯「開悟」世界模型為核心引擎,旨在為機器人和智能設備提供在物理世界中自主探索和進化的能力。

此次發佈的空間智能大模型SenseNova-SI,與「開悟」世界模型相輔相成,將更好地解決多模態模型從數字空間走向物理世界的基礎挑戰,並在未來進一步推動AI在自動駕駛、機器人等場景的應用。

此外,商湯還同步開源了空間智能測評平臺EASI與「英雄榜」,旨在推動空間智能技術評估標準的統一,持續跟蹤並展示開源和閉源模型的性能進展,為學術界和工業界提供權威的評估基準,促進協同創新。

商湯SenseNova-SI的推出標誌着AI在三維世界理解能力上邁出關鍵一步,也為下一代通用人工智能技術融入物理世界打下堅實基礎。

空間智能測評平臺EASI(可點擊閱讀原文):https://github.com/EvolvingLMMs-Lab/EASI

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10