「愛馬仕」首次反超「龍蝦」,上海兩大基座模型調用量擠進全球前五

上觀新聞
05/13

  5月9日至12日,開源AI智能體框架Hermes Agent(別名「愛馬仕」)連續三天反超OpenClaw(別名「龍蝦」),登頂全球大模型社區OpenRouter(開放路由器)智能體調用量榜首。

「愛馬仕」調用量反超「龍蝦」。

  最新數據顯示,「愛馬仕」累計詞元消耗量超過6.72萬億,接棒OpenClaw掀起全球「養馬熱」。

  目前,OpenRouter平台智能體調用量排行榜的前三名智能體分別是「愛馬仕」「龍蝦」和Kilo Code(基洛代碼)。而這三個智能體調用的基座模型,「愛馬仕」調用量排行榜前五名中,有兩個席位被上海基座模型佔據,分別來自MiniMax和階躍星辰;「龍蝦」調用量排行榜中,上海兩大基座模型曾先後登頂,也來自MiniMax和階躍星辰;Kilo Code調用量排行榜的前三名全部由上海基座模型包攬。

  業內人士認為,在追求「詞元效率」的當下,高兼容性和協同能力,將成為大模型競爭的關鍵。

「養馬」先機

  與OpenClaw類似,「愛馬仕」也是一款開源AI智能體框架,可部署於電腦本地或雲端服務器運行,支持用戶自主選擇大模型和聊天工具進行交互,並能自動獨立完成複雜任務。與其他智能體不同的是,「愛馬仕」完成複雜任務後,會自動從中提煉出可複用的Skills(技能),在後續使用中按需加載,並根據新的反饋不斷自我改進。

  這相當於,「愛馬仕」是一個會自學的AI助手。

  早在「愛馬仕」嶄露頭角時,MiniMax和階躍星辰便率先接入支持,推出MaxHermes等相關產品,搶佔了第一波「養馬」先機。如今,這兩大基座模型依然位列全球排行榜前五,且調用量仍在持續增長中。

  「與其說是‘適配’,不如說是上海基模對智能體時代提前作出精準判斷。」階躍星辰首席技術官朱亦博認為,要發揮「愛馬仕」等智能體的最大功能,離不開更聰明、響應迅速、成本可控的大模型。最新基模Step 3.5 Flash恰好具備推理速度快、工具調用能力強、勝任複雜長鏈條任務等優勢,兼顧成本和效能,把推理速度和智能水平做到最佳。

  MiniMax的策略也頗為相似。MiniMax產品負責人認為,長時間穩定運行、高頻工具調用和複雜指令遵循是智能體共同的基礎需求,也是最新模型持續優化的方向。

「霸榜」前三

  在OpenRouter的調用排行榜上,除「愛馬仕」和「龍蝦」外,排名第三的Kilo Code智能體調用量緊隨其後,遠超第四名,潛力不容小覷。在Kilo Code的調用量排名中,上海大模型更是霸佔前三:第一名階躍星辰Step 3.5 Flash、第二名稀宇科技MiniMax M2.5、第三名螞蟻百靈Ling-2.6-1T。

上海大模型「霸榜」前三。

  與「愛馬仕」等通用智能體不同,Kilo Code是一個專業編程智能體,用戶目標單一,就是寫代碼。

  「開發者的核心訴求是代碼生成準不準、工具調用穩不穩、多步任務能不能跑完、成本劃不划算。」螞蟻百靈大模型技術專家表示,為成為複雜工作流中的核心模塊,百靈大模型在指令執行、工具適配、長上下文承接和工程任務處理能力上都做了系統優化。

  據悉,為了差異化競爭,百靈大模型在訓練過程中沒有「求大求全」,而是專攻編碼賽道。「在國際公認的多款代碼和工具調用排行榜中,Ling-2.6-1T達到開源第一梯隊水平,這是開發者願意用的基礎。」該技術專家解釋。

  上海市人工智能協會祕書長鍾俊浩也認為,上海大模型在OpenRouter等全球模型社區屢獲佳績,除了常規的性價比之外,國際化和開源策略也起到關鍵作用。上海大模型在亞馬遜雲、谷歌雲等國際主流雲服務的工程任務中表現良好,開源帶來了豐富的開發者生態,把大模型的選擇權交給開發者,反而讓開發者更願意使用。

持續「進化」

  AI智能體從「生成」走向「行動」,也對模型性能提出了更高要求。當前,多智能體協作趨勢明顯,不同模型會被同時調用,兼容性成為大模型調用量的關鍵指標之一。目前,MiniMax和階躍星辰等上海大模型均高度兼容國際主流智能體框架,開發者接入成本低。

  「即便單個智能體準確率只有60%,只要智能體數量足夠多且犯錯方向不一致,集成系統後的綜合準確率可以迅速逼近100%。」北京智源人工智能研究院倪賢豪認為,如今智能體時代正從「單體智能」走向「群體智能」,關鍵不僅在於單體模型性能強弱,更在於智能體連接協作的效率和規模。

  從OpenRouter排行榜可以看出,智能體效率正成為上海大模型的核心競爭力。

  比如MiniMax M2.7可實現自我「進化」,基於多種工具完成高度複雜的生產力任務,原生支持多種主流智能體框架。階躍星辰新一代圖像生成編輯模型Step Image Edit 2,參數量僅為35億,但實際表現不輸於200億參數的同類大模型,生成圖片僅需0.5至2秒。螞蟻百靈Ling-2.6-1T完成Artificial Analysis評測僅需1600萬輸出詞元,同類模型則需要5000萬以上,也顯示了突出的詞元效率。

  「要想讓每分詞元都花在刀刃上,如今的大模型仍需繼續優化。」螞蟻數科技術專家謝辛表示,在智能體時代,大模型還需要進一步降低詞元消耗,保證結果交付的效率和可靠性。朱亦博也表示,下一步,階躍星辰將強化模型的工具調用與長程任務執行能力,進一步提升複雜智能體任務的完成精度,同時推出不同尺寸的完整模型矩陣,兼顧多種場景的智能體驗與性價比需求,適配多元化終端與應用落地。

(文章來源:上觀新聞)

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10