JetBrains发布AI编码智能体基准测试平台DPAI Arena

IT之家
7小时前

IT之家 11 月 17 日消息,编程 IDE 开发商 JetBrains 今日发文,随着 AI 的兴起,现在的一项关键挑战是如何衡量 AI 辅助工具在现实世界中带来的效率提升。为了应对这一挑战,JetBrains 决定打造 Developer Productivity AI Arena(DPAI Arena),并最终将其献给 Linux Foundation。

DPAI Arena 宣称是业内首款开放式、多语言、多框架和多工作流基准测试平台,旨在衡量 AI 编码智能体在现实世界软件工程任务中的成效。它围绕灵活且基于路径的架构构建而成,能够对各种工作流(例如,修补、bug 修正、PR 审查、测试生成、静态分析等)进行公平、可重现的比较。

JetBrains 表示,当前的基准测试所依赖的数据集已过时,涵盖的技术范围狭窄,并且过于局限地关注问题到补丁工作流。随着 AI 编码工具的快速发展,业界仍然缺乏一个中立且基于标准的框架,用于衡量它们对开发者工作效率的真正影响。

DPAI Arena 将可衡量的工作效率带入 AI 辅助软件开发领域。Spring Benchmark是该平台的第一项基准,它带来了针对未来贡献的技术标准。首先,它实现了数据集创建准则,并详细说明了支持的评估格式和一般规则。其次,它为解耦基础架构提供了基础,使任何人都能采用自己的数据集(BYOD 方式)并重用基础架构进行自己的评估。

JetBrains 官方也在关注 Spring AI Bench,以扩展 DPAI Arena 中的 Java 基准测试流,并与该项目的核心团队紧密合作以推动 Java 生态系统中的更多可变性和多路径基准测试。

JetBrains 计划将此项目献给 Linux Foundation,供其建立多元且包容的技术指导委员会,以确定平台的未来发展方向。

免责声明:投资有风险,本文并非投资建议,以上内容不应被视为任何金融产品的购买或出售要约、建议或邀请,作者或其他用户的任何相关讨论、评论或帖子也不应被视为此类内容。本文仅供一般参考,不考虑您的个人投资目标、财务状况或需求。TTM对信息的准确性和完整性不承担任何责任或保证,投资者应自行研究并在投资前寻求专业建议。

热议股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10