密室逃脫成AI新考場，通關率不足50%，暴露空間推理短板

　　炒股就看金麒麟分析師研報，權威，專業，及時，全面，助您挖掘潛力主題機會！

近年來，多模態大模型（MLLMs）發展迅猛，從看圖說話到視頻理解，似乎無所不能。

但你是否想過：它們真的「看懂」並「想通」了嗎？

模型在面對複雜的、多步驟的視覺推理任務時，能否像人類一樣推理和決策？

為評估多模態大模型在視覺環境中，完成複雜任務推理的能力。清華大學團隊受密室逃脫遊戲啓發，提出EscapeCraft：一個3D密室逃脫環境，讓大模型在3D密室中通過自由探索尋找道具，解鎖出口。

該論文目前已入選ICCV 2025。

EscapeCraft 環境

沉浸式互動環境，靈感源自密室逃脫

研究團隊打造了可自動生成、靈活配置的 3D 場景 EscapeCraft，模型在裏面自由行動：找鑰匙、開箱子、解密碼、逃出房間……其中每一步都需整合視覺、空間、邏輯等多模態信息。

任務可擴展，應用無限可能

EscapeCraft以逃出房間為最終目的，重點評測逃脫過程中的探索和決策行為、推理路徑等。支持不同房間風格、道具鏈長度與難度組合，還可擴展到問答、邏輯推理、敘述重建等任務。它是一個高度靈活、可持續迭代的通用評測平台，也可以為未來的智能體、多模態推理、強化學習等方向研究提供基礎環境、數據和獎勵設定方面的支持。

EscapeCraft支持自由定製和擴展想要的難度等級。不同難度等級下所需的逃脫步驟有所不同。

為了提高任務的難度，我們將線索放置在了牆上而不是箱子中，考驗模型對於環境信息的接收和處理能力，除此之外線索在房間的擺放位置也可自由選擇。

在第一個場景中，線索位於靠近出口的牆上，此時GPT-4o的表現更加出色，可以對線索進行正確利用。

不過，當我們把線索移動到距離出口較遠的牆上，GPT-4o開始不斷重複歷史路徑，無法對正確理解和利用線索，導致逃脫失敗。

模型推理和過程評測

Gemini-1.5-Pro 密室逃脫第一視角

這張圖展示了 Gemini-1.5-pro 模型成功逃脫一個房間的全過程。

開始的0到4步，模型原地不動，通過旋轉視角來觀察房間的環境。

它先從右側開始旋轉，一步步查看房間的不同區域，試圖找到可交互的物體或線索，比如電視、桌子和椅子。

到了第五步，模型將視角對準電視方向，繼續尋找可操作的元素，這時我們可以看到桌上有一把鑰匙。

第六步時，模型前進並拾取了這把鑰匙。拿到鑰匙後，模型表示自己準備轉身面對門，嘗試使用鑰匙。

接下來的步驟中，模型開始朝門的方向移動，意圖解鎖房門。在移動過程中，他多次調整視角，尤其是向上看，試圖確認門的位置。

由於視角偏低，模型一開始沒能看到門，於是不斷微調視角方向來定位門的位置。

從「答對」到「會想」

與傳統只看最終任務結果的評測不同，EscapeCraft 關注整個任務完成過程：模型是否自主探索？有沒有重複犯錯？道具用得對不對？從而真正測試模型的「類人推理過程」。

論文重點彌補以結果為導向的評估缺陷，強調中間推理過程。為此設計了多個衡量視覺感知、多模態推理、環境探索和工具獲取和利用的過程的創新指標：

Intent-Outcome Consistency（意圖與結果一致性）：衡量模型與環境的交互結果是否和的模型的交互意圖一致，即模型是否「在正確的位置做正確的事」。

Prop Gain / Grab Ratio / GSR：刻畫模型在探索和推理過程中的行為模式，反映模型的交互質量、推理效率、和智能程度。

評測結果顯示：GPT-4o 在 Difficulty-3 中僅有 26.5% 的子目標達成是「真正理解後完成的」，其餘大多為偶然成功（比如想拿電視卻誤抓到關鍵道具）。

研究還發現大量有趣失敗案例。例如：

模型面對不可交互的沙發，仍試圖抓取，並在「理由」中解釋「沙發下可能藏着鑰匙」；

模型原本已經看見了關鍵道具，卻在移動過程中將其「逐步移出視野」，隨後繼續提及該道具卻操作失敗……

團隊據此將錯誤拆分為兩類：

視覺感知錯誤：誤判目標是否可交互，視角控制失敗；

推理邏輯錯誤：目標設定錯誤，或動作與意圖不符。

其中 Claude 3.5 的錯誤中，61.1% 屬於推理問題，38.9% 屬於視覺問題。這說明即便模型「看到了」，不代表它「想清楚了」。

誰能逃離「密室」？模型表現結果對比

單房間逃脫結果統計，包括3個不同難度級別（數值越大越難）。

研究評測了包括 GPT-4o、Gemini-1.5 Pro、Claude 3.5、LLaMA-3.2、Qwen、Phi-3 等熱門模型，發現：

在任務評價指標方面：

GPT-4o 逃脫成功率（ER）最佳，但在任務複雜度提升後仍頻頻出錯；

國產大模型Doubao 1.5 Pro在最簡單的關卡中，逃脫成功率超越Gemini 1.5 Pro和Claude 3.5 Sonnet；並且其交互成功率（Grab SR）超越GPT-4o和Claude 3.5 Sonnet；

即使模型逃脫成功率相同，EscapeCraft依然能利用道具獲取率（Prop）、使用步數（Step），交互成功率（Grab SR）和交互率（Grab Ratio）對模型進行比較。

比如，在「Difficult-2」中，Gemini 1.5 Pro和Claude 3.5 Sonnet有相同的逃脫成功率和道具獲取率，但是Gemini 1.5 Pro憑藉較高的交互率，即使它的交互成功率較低，也能通過相對較少的步數成功逃脫；而Claude 3.5 Sonnet雖然交互率低，但每一步交互的成功率較高，體現出該模型完成任務時的「深思熟慮」。

在推理和探索行為方面：

Gemini 和 Claude 常在房間角落「卡住」，空間方向等判斷失誤，空轉失敗；

多數模型容易「反覆抓錯」或「認錯道具」，他們的失敗方式也各有特色：有的不會動、有的亂動、有的只移動不採取交互行動、有的動作對了但「目的不清」……；

子目標達成率雖高，但意圖-結果一致性普遍低下，即「想要和沙發交互，但是意外地拿到鑰匙」；

在多房間設定下，模型能從第一個房間學習到的逃脫經驗有限，僅在兩個房間關卡設定相似的條件下有輔助作用。

項目主頁：

https://thunlp-mt.github.io/EscapeCraft

GitHub 地址：

https://github.com/THUNLP-MT/EscapeCraft

論文原文：

https://arxiv.org/abs/2503.10042v4

（轉自：網易科技）

海量資訊、精準解讀，盡在新浪財經APP

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

密室逃脫成AI新考場，通關率不足50%，暴露空間推理短板

熱議股票