月之暗面又開源了！楊植麟合著提出新Agent框架，旗艦模型得分超GPT-4o

編譯 | 程茜

編輯 | 雲鵬

智東西8月14日消息，本周二，一篇來自香港大學XLANG Lab 、月之暗面等多家機構聯合署名的論文在arXiv發表，提出了一個用於構建和擴展的CUA（計算機使用Agent）開源框架OpenCUA，這一框架開源意味着用戶可以高效、低門檻開發自主操作電腦的Agent。

香港大學計算機科學助理教授Tao Yu（餘濤）為項目負責人，月之暗面、斯坦福大學、滑鐵盧大學、卡內基梅隆大學的研究人員參與，月之暗面創始人、CEO楊植麟在作者名單之列。

研究人員開源OpenCUA的原因是，目前CUA系統的關鍵細節仍然處於閉源狀態，為了擴展其輔助用戶執行相應決策的應用能力，研究人員需要訪問開源CUA框架來研究其能力、侷限性和風險。

在此基礎上，研究人員提出了這一用於擴展CUA數據和基礎模型的綜合開源框架。

該框架包括：無縫捕獲人類計算機使用演示的註釋基礎設施；第一個跨越3個操作系統以及超200個應用程序和網站的大規模計算機使用任務數據集AgentNet；一個可擴展的、能將演示轉換為具有反思性長思維鏈推理「狀態-動作」對的工作流程。

該模型是基於Kimi-VL-A3B、Qwen2-VL-7B、Qwen2.5-VL-7B和Qwen2.5-VL-32B進行監督微調（SFT），獲得了OpenCUA模型變體：OpenCUA-A3B、OpenCUA-Qwen2-7B、OpenCUA-7B和OpenCUA-2.5-32B。

其中旗艦模型OpenCUA-32B在CUA基準測試OSWorld-Verified上的平均成功率達到34.8%，達到開源模型新的SOTA，甚至超越了OpenAI CUA（GPT-4o）。

論文地址：https://arxiv.org/pdf/2508.09123

OpenCUA主頁（工具、模型、數據集）：https://opencua.xlang.ai

一、查天氣、做PPT任務軌跡清晰明瞭，表現超OpenAI、Kimi、Qwen多個模型

研究人員在項目主頁展示了OpenCUA使用計算機執行的任務軌跡。

在VScode中安裝擴展的任務軌跡：

查詢英國曼徹斯特天氣預報的任務軌跡：

製作PPT的任務軌跡：

在基礎測試驗證上，CUA基準測試OSWorld-Verify中，OpenCUA-32B的表現優於Qwen、Kimi、OpenAI、Claude等開源及閉源模型，在部分任務表現上，獲得的分數低於Claude 3.7 Sonnet、Claude 4 Sonnet。

在離線部署方面，研究人員構建了計算機離線使用的Agent評估基準AgentNetBench，由從AgentNet數據集中選出的100個代表性任務組成，涵蓋Windows和macOS平台以及不同的領域。

其中每項任務都經過研究人員手動審查，以細化目標並刪除多餘作，且由於計算機使用任務中有效作固有的多樣性，研究人員在每個步驟中都手動提供了多個有效操作選項。

OpenCUA-7B、OpenCUA-32B的平均分數均優於OpenAI、Qwen等模型。

GUI定位能力也就是模型面對圖形化界面（GUI），去識別按鈕、菜單、輸入框等視覺元素的能力。其中研究人員採用了OSWorld-G、Screenspot-V2、Screenspot-Pro三個基準，OpenCUA-2.5-72B的每個測試表現都遠超其他模型。

二、簡化數據收集流程，發布22.5K計算機使用任務數據集

對於該框架的具體實現方面，包含了如何收集高質量計算機使用Agent數據、形成數據集、高效擴展等。

首先，高效、準確的註釋對於收集高質量的計算機使用Agent數據至關重要，但現有的工具不支持非技術用戶自然、跨平台的任務記錄，因此研究人員開發了用戶友好的註釋工具AgentNet Tool，該工具可以簡化計算機使用演示的收集和驗證，在註釋者的個人計算機上運行並在後台記錄演示。

AgentNet Tool可捕獲跨Windows、macOS和Ubuntu三大操作系統的用戶交互，能記錄螢幕視頻、鼠標、鍵盤事件和元數據，從而擴展收集真實世界的計算機使用演示。

其次，AgentNet Method可以將原始的用戶演示處理成乾淨的、可學習的狀態-動作軌跡，由此產生的軌跡包括內心獨白式的思想和行動歷史，使其適合視覺語言模型訓練。

這些處理後的數據被整理到AgentNet數據集和AgentNetBench中。該數據集涵蓋了100多個應用程序和200多個網站的各種開放領域任務。該基準測試提供任務指令、步驟歷史記錄和每個步驟的多個黃金標準作，以實現高效離線評估。

該數據集包含22.5K人工標註的計算機使用任務，包括Windows的12K、macOS的5K和Ubuntu系統的5K。這些任務涵蓋140多個應用程序和190個網站，通常涉及多應用程序工作流程、專業工具和不常見的功能。

其研究論文提到，與以往的GUI數據集相比，AgentNet是第一個真實、複雜、多樣、多模態的桌面軌跡級數據集。

▲OpenCUA的基本框架

最後，OpenCUA能使用反思性思維鏈推理、多圖像歷史和混合域數據在數據集上進行訓練，它們可以在跨作系統的真實桌面環境中執行，以執行計算機使用任務。

值得一提的是，高Pass@N性能也表明OpenCUA-7B具有強大的測試時間擴展潛力。Pass@N是評估生成式模型在代碼生成、程序合成、推理任務中性能的重要指標，用於衡量模型在多次嘗試內生成正確結果的概率。

▲OpenCUA的Pass@N性能

結語：OpenCUA為計算機使用Agent規模化鋪路

計算機使用Agent是一種能夠通過與計算機圖形用戶界面（GUI）交互來自動執行數字任務的智能體，但由於數據稀缺、人工採集成高、難以私有化部署等痛點，使得其走向規模化應用落地有諸多瓶頸。

此次，OpenCUA在開源模型基礎上進行監督微調獲得模型變體，降低了計算機使用Agent的數據獲取成本，並形成了跨三個操作系統、上百個應用和網頁的數據集，對於其進一步調用多種工具、理解用戶需求、高效任務執行等方面將提供助力。

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

月之暗面又開源了！楊植麟合著提出新Agent框架，旗艦模型得分超GPT-4o

熱議股票