“爱马仕”首次反超“龙虾”,上海两大基座模型调用量挤进全球前五

上观新闻
May 13

  5月9日至12日,开源AI智能体框架Hermes Agent(别名“爱马仕”)连续三天反超OpenClaw(别名“龙虾”),登顶全球大模型社区OpenRouter(开放路由器)智能体调用量榜首。

“爱马仕”调用量反超“龙虾”。

  最新数据显示,“爱马仕”累计词元消耗量超过6.72万亿,接棒OpenClaw掀起全球“养马热”。

  目前,OpenRouter平台智能体调用量榜单的前三名智能体分别是“爱马仕”“龙虾”和Kilo Code(基洛代码)。而这三个智能体调用的基座模型,“爱马仕”调用量榜单前五名中,有两个席位被上海基座模型占据,分别来自MiniMax和阶跃星辰;“龙虾”调用量榜单中,上海两大基座模型曾先后登顶,也来自MiniMax和阶跃星辰;Kilo Code调用量榜单的前三名全部由上海基座模型包揽。

  业内人士认为,在追求“词元效率”的当下,高兼容性和协同能力,将成为大模型竞争的关键。

“养马”先机

  与OpenClaw类似,“爱马仕”也是一款开源AI智能体框架,可部署于电脑本地或云端服务器运行,支持用户自主选择大模型和聊天工具进行交互,并能自动独立完成复杂任务。与其他智能体不同的是,“爱马仕”完成复杂任务后,会自动从中提炼出可复用的Skills(技能),在后续使用中按需加载,并根据新的反馈不断自我改进。

  这相当于,“爱马仕”是一个会自学的AI助手。

  早在“爱马仕”崭露头角时,MiniMax和阶跃星辰便率先接入支持,推出MaxHermes等相关产品,抢占了第一波“养马”先机。如今,这两大基座模型依然位列全球榜单前五,且调用量仍在持续增长中。

  “与其说是‘适配’,不如说是上海基模对智能体时代提前作出精准判断。”阶跃星辰首席技术官朱亦博认为,要发挥“爱马仕”等智能体的最大功能,离不开更聪明、响应迅速、成本可控的大模型。最新基模Step 3.5 Flash恰好具备推理速度快、工具调用能力强、胜任复杂长链条任务等优势,兼顾成本和效能,把推理速度和智能水平做到最佳。

  MiniMax的策略也颇为相似。MiniMax产品负责人认为,长时间稳定运行、高频工具调用和复杂指令遵循是智能体共同的基础需求,也是最新模型持续优化的方向。

“霸榜”前三

  在OpenRouter的调用榜单上,除“爱马仕”和“龙虾”外,排名第三的Kilo Code智能体调用量紧随其后,远超第四名,潜力不容小觑。在Kilo Code的调用量排名中,上海大模型更是霸占前三:第一名阶跃星辰Step 3.5 Flash、第二名稀宇科技MiniMax M2.5、第三名蚂蚁百灵Ling-2.6-1T。

上海大模型“霸榜”前三。

  与“爱马仕”等通用智能体不同,Kilo Code是一个专业编程智能体,用户目标单一,就是写代码。

  “开发者的核心诉求是代码生成准不准、工具调用稳不稳、多步任务能不能跑完、成本划不划算。”蚂蚁百灵大模型技术专家表示,为成为复杂工作流中的核心模块,百灵大模型在指令执行、工具适配、长上下文承接和工程任务处理能力上都做了系统优化。

  据悉,为了差异化竞争,百灵大模型在训练过程中没有“求大求全”,而是专攻编码赛道。“在国际公认的多款代码和工具调用榜单中,Ling-2.6-1T达到开源第一梯队水平,这是开发者愿意用的基础。”该技术专家解释。

  上海市人工智能协会秘书长钟俊浩也认为,上海大模型在OpenRouter等全球模型社区屡获佳绩,除了常规的性价比之外,国际化和开源策略也起到关键作用。上海大模型在亚马逊云、谷歌云等国际主流云服务的工程任务中表现良好,开源带来了丰富的开发者生态,把大模型的选择权交给开发者,反而让开发者更愿意使用。

持续“进化”

  AI智能体从“生成”走向“行动”,也对模型性能提出了更高要求。当前,多智能体协作趋势明显,不同模型会被同时调用,兼容性成为大模型调用量的关键指标之一。目前,MiniMax和阶跃星辰等上海大模型均高度兼容国际主流智能体框架,开发者接入成本低。

  “即便单个智能体准确率只有60%,只要智能体数量足够多且犯错方向不一致,集成系统后的综合准确率可以迅速逼近100%。”北京智源人工智能研究院倪贤豪认为,如今智能体时代正从“单体智能”走向“群体智能”,关键不仅在于单体模型性能强弱,更在于智能体连接协作的效率和规模。

  从OpenRouter榜单可以看出,智能体效率正成为上海大模型的核心竞争力。

  比如MiniMax M2.7可实现自我“进化”,基于多种工具完成高度复杂的生产力任务,原生支持多种主流智能体框架。阶跃星辰新一代图像生成编辑模型Step Image Edit 2,参数量仅为35亿,但实际表现不输于200亿参数的同类大模型,生成图片仅需0.5至2秒。蚂蚁百灵Ling-2.6-1T完成Artificial Analysis评测仅需1600万输出词元,同类模型则需要5000万以上,也显示了突出的词元效率。

  “要想让每分词元都花在刀刃上,如今的大模型仍需继续优化。”蚂蚁数科技术专家谢辛表示,在智能体时代,大模型还需要进一步降低词元消耗,保证结果交付的效率和可靠性。朱亦博也表示,下一步,阶跃星辰将强化模型的工具调用与长程任务执行能力,进一步提升复杂智能体任务的完成精度,同时推出不同尺寸的完整模型矩阵,兼顾多种场景的智能体验与性价比需求,适配多元化终端与应用落地。

(文章来源:上观新闻)

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10