JetBrains发布AI编码智能体基准测试平台DPAI Arena

IT之家
9 hours ago

IT之家 11 月 17 日消息,编程 IDE 开发商 JetBrains 今日发文,随着 AI 的兴起,现在的一项关键挑战是如何衡量 AI 辅助工具在现实世界中带来的效率提升。为了应对这一挑战,JetBrains 决定打造 Developer Productivity AI Arena(DPAI Arena),并最终将其献给 Linux Foundation。

DPAI Arena 宣称是业内首款开放式、多语言、多框架和多工作流基准测试平台,旨在衡量 AI 编码智能体在现实世界软件工程任务中的成效。它围绕灵活且基于路径的架构构建而成,能够对各种工作流(例如,修补、bug 修正、PR 审查、测试生成、静态分析等)进行公平、可重现的比较。

JetBrains 表示,当前的基准测试所依赖的数据集已过时,涵盖的技术范围狭窄,并且过于局限地关注问题到补丁工作流。随着 AI 编码工具的快速发展,业界仍然缺乏一个中立且基于标准的框架,用于衡量它们对开发者工作效率的真正影响。

DPAI Arena 将可衡量的工作效率带入 AI 辅助软件开发领域。Spring Benchmark是该平台的第一项基准,它带来了针对未来贡献的技术标准。首先,它实现了数据集创建准则,并详细说明了支持的评估格式和一般规则。其次,它为解耦基础架构提供了基础,使任何人都能采用自己的数据集(BYOD 方式)并重用基础架构进行自己的评估。

JetBrains 官方也在关注 Spring AI Bench,以扩展 DPAI Arena 中的 Java 基准测试流,并与该项目的核心团队紧密合作以推动 Java 生态系统中的更多可变性和多路径基准测试。

JetBrains 计划将此项目献给 Linux Foundation,供其建立多元且包容的技术指导委员会,以确定平台的未来发展方向。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10