月之暗面又开源了!杨植麟合著提出新Agent框架,旗舰模型得分超GPT-4o

智东西
Aug 14, 2025

编译 | 程茜

编辑 | 云鹏

智东西8月14日消息,本周二,一篇来自香港大学XLANG Lab 、月之暗面等多家机构联合署名的论文在arXiv发表,提出了一个用于构建和扩展的CUA(计算机使用Agent)开源框架OpenCUA,这一框架开源意味着用户可以高效、低门槛开发自主操作电脑的Agent。

香港大学计算机科学助理教授Tao Yu(余涛)为项目负责人,月之暗面、斯坦福大学、滑铁卢大学、卡内基梅隆大学的研究人员参与,月之暗面创始人、CEO杨植麟在作者名单之列

研究人员开源OpenCUA的原因是,目前CUA系统的关键细节仍然处于闭源状态,为了扩展其辅助用户执行相应决策的应用能力,研究人员需要访问开源CUA框架来研究其能力、局限性和风险。

在此基础上,研究人员提出了这一用于扩展CUA数据和基础模型的综合开源框架

该框架包括:无缝捕获人类计算机使用演示的注释基础设施第一个跨越3个操作系统以及超200个应用程序和网站的大规模计算机使用任务数据集AgentNet一个可扩展的、能将演示转换为具有反思性长思维链推理“状态-动作”对的工作流程

该模型是基于Kimi-VL-A3B、Qwen2-VL-7B、Qwen2.5-VL-7B和Qwen2.5-VL-32B进行监督微调(SFT),获得了OpenCUA模型变体:OpenCUA-A3B、OpenCUA-Qwen2-7B、OpenCUA-7B和OpenCUA-2.5-32B。

其中旗舰模型OpenCUA-32B在CUA基准测试OSWorld-Verified上的平均成功率达到34.8%,达到开源模型新的SOTA,甚至超越了OpenAI CUA(GPT-4o)

论文地址:https://arxiv.org/pdf/2508.09123

OpenCUA主页(工具、模型、数据集):https://opencua.xlang.ai

一、查天气、做PPT任务轨迹清晰明了,表现超OpenAI、Kimi、Qwen多个模型

研究人员在项目主页展示了OpenCUA使用计算机执行的任务轨迹。

在VScode中安装扩展的任务轨迹:

查询英国曼彻斯特天气预报的任务轨迹:

制作PPT的任务轨迹:

在基础测试验证上,CUA基准测试OSWorld-Verify中,OpenCUA-32B的表现优于Qwen、Kimi、OpenAI、Claude等开源及闭源模型,在部分任务表现上,获得的分数低于Claude 3.7 Sonnet、Claude 4 Sonnet。

在离线部署方面,研究人员构建了计算机离线使用的Agent评估基准AgentNetBench,由从AgentNet数据集中选出的100个代表性任务组成,涵盖Windows和macOS平台以及不同的领域。

其中每项任务都经过研究人员手动审查,以细化目标并删除多余作,且由于计算机使用任务中有效作固有的多样性,研究人员在每个步骤中都手动提供了多个有效操作选项。

OpenCUA-7B、OpenCUA-32B的平均分数均优于OpenAI、Qwen等模型。

GUI定位能力也就是模型面对图形化界面(GUI),去识别按钮、菜单、输入框等视觉元素的能力。其中研究人员采用了OSWorld-G、Screenspot-V2、Screenspot-Pro三个基准,OpenCUA-2.5-72B的每个测试表现都远超其他模型。

二、简化数据收集流程,发布22.5K计算机使用任务数据集

对于该框架的具体实现方面,包含了如何收集高质量计算机使用Agent数据、形成数据集、高效扩展等。

首先,高效、准确的注释对于收集高质量的计算机使用Agent数据至关重要,但现有的工具不支持非技术用户自然、跨平台的任务记录,因此研究人员开发了用户友好的注释工具AgentNet Tool,该工具可以简化计算机使用演示的收集和验证,在注释者的个人计算机上运行并在后台记录演示。

AgentNet Tool可捕获跨Windows、macOS和Ubuntu三大操作系统的用户交互,能记录屏幕视频、鼠标、键盘事件和元数据,从而扩展收集真实世界的计算机使用演示。

其次,AgentNet Method可以将原始的用户演示处理成干净的、可学习的状态-动作轨迹,由此产生的轨迹包括内心独白式的思想和行动历史,使其适合视觉语言模型训练。

这些处理后的数据被整理到AgentNet数据集和AgentNetBench中。该数据集涵盖了100多个应用程序和200多个网站的各种开放领域任务。该基准测试提供任务指令、步骤历史记录和每个步骤的多个黄金标准作,以实现高效离线评估。

该数据集包含22.5K人工标注的计算机使用任务,包括Windows的12K、macOS的5K和Ubuntu系统的5K。这些任务涵盖140多个应用程序和190个网站,通常涉及多应用程序工作流程、专业工具和不常见的功能。

其研究论文提到,与以往的GUI数据集相比,AgentNet是第一个真实、复杂、多样、多模态的桌面轨迹级数据集。

▲OpenCUA的基本框架

最后,OpenCUA能使用反思性思维链推理、多图像历史和混合域数据在数据集上进行训练,它们可以在跨作系统的真实桌面环境中执行,以执行计算机使用任务。

值得一提的是,高Pass@N性能也表明OpenCUA-7B具有强大的测试时间扩展潜力。Pass@N是评估生成式模型在代码生成、程序合成、推理任务中性能的重要指标,用于衡量模型在多次尝试内生成正确结果的概率。

▲OpenCUA的Pass@N性能

结语:OpenCUA为计算机使用Agent规模化铺路

计算机使用Agent是一种能够通过与计算机图形用户界面(GUI)交互来自动执行数字任务的智能体,但由于数据稀缺、人工采集成高、难以私有化部署等痛点,使得其走向规模化应用落地有诸多瓶颈。

此次,OpenCUA在开源模型基础上进行监督微调获得模型变体,降低了计算机使用Agent的数据获取成本,并形成了跨三个操作系统、上百个应用和网页的数据集,对于其进一步调用多种工具、理解用户需求、高效任务执行等方面将提供助力。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10