杨植麟亲自发布Kimi K2.5开源新王:指挥“智能体大军”,效率暴涨450%

智东西
Jan 27

智东西

作者 王涵

编辑 云鹏

智东西1月27日报道,今天,月之暗面Kimi开源了新模型——K2.5,杨植麟还特别发视频亲自介绍。

杨植麟分享称,K2.5是Kimi迄今为止最强大的模型。面对复杂任务时,Kimi K2.5可自主调度包含多达100个子智能体的集群,并行执行最高1500次工具调用。

相较于单智能体模式,其任务执行效率提升最高达4.5倍。整个Agent集群由K2.5模型全自动创建与协调,无需任何预定义子智能体或工作流。该模型以Kimi K2为基础技术架构,在原有架构之上进行了持续的预训练优化,且训练过程中学习、融合了约15万亿个“视觉+文本”混合形式的训练数据单元。

▲K2.5模型开源页面(Hugging Face)

基准测试上,在Agents方面,HLE-Full(综合推理)、BrowseComp(浏览交互)、DeepSearchQA(深度搜索问答)三个基准测试中K2.5得分均位列第一;在编码方面,K2.5在SWE-Bench Verified、SWE-Bench Multilingual两项中均排名第一;在图像多模态方面,K2.5在文档理解测试mniDocBench 1.5中得分88.8,为第一名

▲K2.5模型基准测试

在Agent基准测试HLE、BrowseComp和SWE-Veried中,K2.5与GPT-5.2(xhigh)相比,在性能逼近的同时成本更低

▲K2.5模型性价比对比

外网网友对Kimi K2.5模型的评价可以说是好评如潮。FireworksAI联合创始人兼首席技术官Dmytro Dzhulgakov评论称“Kimi K2.5=开源SOTA推理+视觉+256K 上下文+智能体编码”。

▲外网网友评价(X)

Thrive Protocol AI与数据工程师、Ethers Club播客主持人0xSero说(他用)Kimi创建了新的网站页面。

▲外网网友评价(X)

KEA Research协作平台创立者Stanislaw则评价Kimi看起来十分有潜力。

▲外网网友评价(X)

除了K2.5模型外,针对软件工程场景,Kimi团队还推出了编程产品Kimi Code。Kimi Code可直接在终端运行,并支持与VSCode、Cursor、Zed等主流IDE集成。该产品已开源,支持图像与视频输入,还能自动发现现有技能及MCP协议并迁移至Kimi Code工作环境。

价格上,K2.5模型API输入(每百万Token)4元,缓存输入0.7元;输出(每百万Token)21元

▲K2.5模型API价格

K2.5模型提供了四种模式:

1、快速模式:提供最快的响应体验;

2、思考模式:可以用来解答复杂问题;

3、Agent模式:擅长深度研究、PPT、Excel、Word、PDF和网页生成等任务;

4、Agent集群模式:适合需要并行处理的复杂任务。

▲K2.5模型主页

开源地址:

Hugging Face:

https://huggingface.co/moonshotai/Kimi-K2.5

魔搭社区:

https://modelscope.cn/models/moonshotai/Kimi-K2.5

一、几句话生成能交互的动态网页界面,K2.5降低视觉表达门槛

在Kimi团队内部编程基准测试集Kimi Code Bench中,K2.5在多语言环境下从构建、调试、重构、测试到脚本编写的端到端任务上均较K2有所增强。

▲内部编程基准测试集Kimi Code Bench

杨植麟称,Kimi团队不只是想让K2.5学会写代码,更希望它具备设计审美。在前端开发领域,K2.5能将简单对话转化为完整的前端界面,可以做出像专业设计师出品一样,有高级审美和动效的网页,就像这样:

在视觉编程方面,通过对图像与视频的推理,K2.5的图像/视频转代码生成与视觉调试能力增强,降低了用户通过视觉表达创意的门槛,直接上传一个录屏,就可以重建网页。

此能力源于K2.5的大规模视觉-文本联合预训练。当数据规模足够庞大时,视觉与文本能力实现同步提升。

K2.5还可以通过代码推理谜题并标记最短路径:

二、自主调动1500个协调步骤,K2.5端到端运行时间缩短80%

半年前,Kimi发布了首个万亿参数开源Agent模型Kimi K2。随后推出的Kimi K2 Thinking,通过增加思考时间,具备了独立完成长达300步操作的长程任务能力,但这还不够。

通过并行智能体强化学习(PARL)训练,K2.5模型学会了自主调度最多100个子智能体组成的集群,并行执行最多1500个协调步骤的工作流,整个过程无需预定义角色或人工设计工作流。

可以说,K2.5是从“单个专家”升级为了一个“专业团队”。

▲K2.5 Agent集群结构

K2.5 Agent集群通过并行、专门化的执行方式能够提升复杂任务的性能。在Kimi团队内部评估中,其能够将端到端运行时间缩短80%,同时支持更复杂、更长期的工作负载。

▲Kimi团队内部评估

在广泛搜索场景中,与单智能体执行相比,Agent集群可以将达到目标性能所需的最小关键步骤减少至原先的1/4到1/5.5。通过并行化,Agent集群实际运行时间最多可减少至原先的1/5.5

▲运行时间对比

在实际任务中,例如在大规模并行处理方面,面对在100个细分领域中找出排名前三的YouTube创作者的任务,K2.5 Agent集群首先研究并定义每个领域,然后自主创建100个子智能体进行并行搜索。

每个子智能体在其分配的细分领域内识别出领先的创作者,并将结果汇总到一个结构化的电子表格中。

在大规模使用工具方面,K2.5 Agent集群仅凭一张结婚照,就能启动20个并行子智能体,生成符合当地文化背景的全球婚礼旅行场景,并将它们整合到一个具有统一身份和服饰的互动网页中。

此外,在规模化产出方面,K2.5 Agent集群可以将一项涵盖40篇社会心理学论文的文献综述任务分解为多个专注于写作的子智能体。

每个子智能体负责综述的特定部分,它们的输出最终被综合成一份100页的双栏学术文档,其中包含格式完整的引文和参考文献。

最后,在大规模下载方面,K2.5 Agent集群能够调度多个具有专业分工的子智能体,共同协作处理保罗·格雷厄姆(Paul Graham)的文章。这些子智能体分别负责搜索、下载、分类、总结与汇编任务。

在协同工作下,系统将超过200篇原始文章按主题整理至6个分类文件夹,并生成了一份结构清晰的综合摘要报告。报告中所有引用均明确标注了对应的原始文章来源。

三、AI办公质量提升近60%,K2.5能处理大规模办公任务

不仅如此,K2.5已经开始熟练掌握Office套件的核心技能。

其能够端到端处理高密度、大规模的办公任务,该模型能解析大规模高密度输入,协调多步骤工具使用,并通过直接对话生成专业级输出成果,包括Word、Excel、PPT和PDF。

KImi团队针对真实职场场景,设计了两套内部专家生产力基准测试。AI办公基准测试评估端到端的办公输出质量,而通用智能体基准测试则以人类专家表现为标准,衡量多步骤生产级工作流的表现。

在这两项测试中,在两项基准测试中,K2.5的性能分别比K2 Thinking提升了59.3%24.3%

▲kimi内部专家生产力基准测试

K2.5智能体支持高级办公任务,例如在Word中添加批注、使用数据透视表构建财务模型、在PDF中编写LaTeX公式,并能处理长达万字的论文或百页文档等长篇输出。

例如生成包含图片的100个镜头的分镜脚本表格:

给技术报告增添行内注释:

从数据中提取30个带密码的工资单PDF文件:

结语:月之暗面或将着重多模态及智能体集群能力

一周前,市场还在为月之暗面在20天内估值暴涨约34亿人民币的消息而惊叹。一周后,这家北京AI独角兽就开源了新模型。

此次开源的K2.5模型,最亮眼的就是其“智能体集群”能力,将AI从执行单一指令的工具,升级为能自主调度、并行处理上千步骤的“团队”,而这正直指企业级应用的核心痛点:复杂、高成本、长周期的知识工作流程自动化。

整体来看,这是一次聚焦于提升模型实际效能、扩展多模态能力的技术迭代。此次发布展示了月之暗面近期的研发重心与成果,此前曝光的新融资或为这类深度研发提供更多支持。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10