楊植麟親自發布Kimi K2.5開源新王:指揮「智能體大軍」,效率暴漲450%

智東西
01/27

智東西

作者 王涵

編輯 雲鵬

智東西1月27日報道,今天,月之暗面Kimi開源了新模型——K2.5,楊植麟還特別發視頻親自介紹。

楊植麟分享稱,K2.5是Kimi迄今為止最強大的模型。面對複雜任務時,Kimi K2.5可自主調度包含多達100個子智能體的集羣,並行執行最高1500次工具調用。

相較於單智能體模式,其任務執行效率提升最高達4.5倍。整個Agent集羣由K2.5模型全自動創建與協調,無需任何預定義子智能體或工作流。該模型以Kimi K2為基礎技術架構,在原有架構之上進行了持續的預訓練優化,且訓練過程中學習、融合了約15萬億個「視覺+文本」混合形式的訓練數據單元。

▲K2.5模型開源頁面(Hugging Face)

基準測試上,在Agents方面,HLE-Full(綜合推理)、BrowseComp(瀏覽交互)、DeepSearchQA(深度搜索問答)三個基準測試中K2.5得分均位列第一;在編碼方面,K2.5在SWE-Bench Verified、SWE-Bench Multilingual兩項中均排名第一;在圖像多模態方面,K2.5在文檔理解測試mniDocBench 1.5中得分88.8,為第一名

▲K2.5模型基準測試

在Agent基準測試HLE、BrowseComp和SWE-Veried中,K2.5與GPT-5.2(xhigh)相比,在性能逼近的同時成本更低

▲K2.5模型性價比對比

外網網友對Kimi K2.5模型的評價可以說是好評如潮。FireworksAI聯合創始人兼首席技術官Dmytro Dzhulgakov評論稱「Kimi K2.5=開源SOTA推理+視覺+256K 上下文+智能體編碼」。

▲外網網友評價(X)

Thrive Protocol AI與數據工程師、Ethers Club播客主持人0xSero說(他用)Kimi創建了新的網站頁面。

▲外網網友評價(X)

KEA Research協作平台創立者Stanislaw則評價Kimi看起來十分有潛力。

▲外網網友評價(X)

除了K2.5模型外,針對軟件工程場景,Kimi團隊還推出了編程產品Kimi Code。Kimi Code可直接在終端運行,並支持與VSCode、Cursor、Zed等主流IDE集成。該產品已開源,支持圖像與視頻輸入,還能自動發現現有技能及MCP協議並遷移至Kimi Code工作環境。

價格上,K2.5模型API輸入(每百萬Token)4元,緩存輸入0.7元;輸出(每百萬Token)21元

▲K2.5模型API價格

K2.5模型提供了四種模式:

1、快速模式:提供最快的響應體驗;

2、思考模式:可以用來解答覆雜問題;

3、Agent模式:擅長深度研究、PPT、Excel、Word、PDF和網頁生成等任務;

4、Agent集羣模式:適合需要並行處理的複雜任務。

▲K2.5模型主頁

開源地址:

Hugging Face:

https://huggingface.co/moonshotai/Kimi-K2.5

魔搭社區:

https://modelscope.cn/models/moonshotai/Kimi-K2.5

一、幾句話生成能交互的動態網頁界面,K2.5降低視覺表達門檻

在Kimi團隊內部編程基準測試集Kimi Code Bench中,K2.5在多語言環境下從構建、調試、重構、測試到腳本編寫的端到端任務上均較K2有所增強。

▲內部編程基準測試集Kimi Code Bench

楊植麟稱,Kimi團隊不只是想讓K2.5學會寫代碼,更希望它具備設計審美。在前端開發領域,K2.5能將簡單對話轉化為完整的前端界面,可以做出像專業設計師出品一樣,有高級審美和動效的網頁,就像這樣:

在視覺編程方面,通過對圖像與視頻的推理,K2.5的圖像/視頻轉代碼生成與視覺調試能力增強,降低了用戶通過視覺表達創意的門檻,直接上傳一個錄屏,就可以重建網頁。

此能力源於K2.5的大規模視覺-文本聯合預訓練。當數據規模足夠龐大時,視覺與文本能力實現同步提升。

K2.5還可以通過代碼推理謎題並標記最短路徑:

二、自主調動1500個協調步驟,K2.5端到端運行時間縮短80%

半年前,Kimi發布了首個萬億參數開源Agent模型Kimi K2。隨後推出的Kimi K2 Thinking,通過增加思考時間,具備了獨立完成長達300步操作的長程任務能力,但這還不夠。

通過並行智能體強化學習(PARL)訓練,K2.5模型學會了自主調度最多100個子智能體組成的集羣,並行執行最多1500個協調步驟的工作流,整個過程無需預定義角色或人工設計工作流。

可以說,K2.5是從「單個專家」升級為了一個「專業團隊」。

▲K2.5 Agent集羣結構

K2.5 Agent集羣通過並行、專門化的執行方式能夠提升複雜任務的性能。在Kimi團隊內部評估中,其能夠將端到端運行時間縮短80%,同時支持更復雜、更長期的工作負載。

▲Kimi團隊內部評估

在廣泛搜索場景中,與單智能體執行相比,Agent集羣可以將達到目標性能所需的最小關鍵步驟減少至原先的1/4到1/5.5。通過並行化,Agent集羣實際運行時間最多可減少至原先的1/5.5

▲運行時間對比

在實際任務中,例如在大規模並行處理方面,面對在100個細分領域中找出排名前三的YouTube創作者的任務,K2.5 Agent集羣首先研究並定義每個領域,然後自主創建100個子智能體進行並行搜索。

每個子智能體在其分配的細分領域內識別出領先的創作者,並將結果匯總到一個結構化的電子表格中。

在大規模使用工具方面,K2.5 Agent集羣僅憑一張結婚照,就能啓動20個並行子智能體,生成符合當地文化背景的全球婚禮旅行場景,並將它們整合到一個具有統一身份和服飾的互動網頁中。

此外,在規模化產出方面,K2.5 Agent集羣可以將一項涵蓋40篇社會心理學論文的文獻綜述任務分解為多個專注於寫作的子智能體。

每個子智能體負責綜述的特定部分,它們的輸出最終被綜合成一份100頁的雙欄學術文檔,其中包含格式完整的引文和參考文獻。

最後,在大規模下載方面,K2.5 Agent集羣能夠調度多個具有專業分工的子智能體,共同協作處理保羅·格雷厄姆(Paul Graham)的文章。這些子智能體分別負責搜索、下載、分類、總結與彙編任務。

在協同工作下,系統將超過200篇原始文章按主題整理至6個分類文件夾,並生成了一份結構清晰的綜合摘要報告。報告中所有引用均明確標註了對應的原始文章來源。

三、AI辦公質量提升近60%,K2.5能處理大規模辦公任務

不僅如此,K2.5已經開始熟練掌握Office套件的核心技能。

其能夠端到端處理高密度、大規模的辦公任務,該模型能解析大規模高密度輸入,協調多步驟工具使用,並通過直接對話生成專業級輸出成果,包括Word、Excel、PPT和PDF。

KImi團隊針對真實職場場景,設計了兩套內部專家生產力基準測試。AI辦公基準測試評估端到端的辦公輸出質量,而通用智能體基準測試則以人類專家表現為標準,衡量多步驟生產級工作流的表現。

在這兩項測試中,在兩項基準測試中,K2.5的性能分別比K2 Thinking提升了59.3%24.3%

▲kimi內部專家生產力基準測試

K2.5智能體支持高級辦公任務,例如在Word中添加批註、使用數據透視表構建財務模型、在PDF中編寫LaTeX公式,並能處理長達萬字的論文或百頁文檔等長篇輸出。

例如生成包含圖片的100個鏡頭的分鏡腳本表格:

給技術報告增添行內註釋:

從數據中提取30個帶密碼的工資單PDF文件:

結語:月之暗面或將着重多模態及智能體集羣能力

一周前,市場還在為月之暗面在20天內估值暴漲約34億人民幣的消息而驚歎。一周後,這家北京AI獨角獸就開源了新模型。

此次開源的K2.5模型,最亮眼的就是其「智能體集羣」能力,將AI從執行單一指令的工具,升級為能自主調度、並行處理上千步驟的「團隊」,而這正直指企業級應用的核心痛點:複雜、高成本、長周期的知識工作流程自動化。

整體來看,這是一次聚焦於提升模型實際效能、擴展多模態能力的技術迭代。此次發布展示了月之暗面近期的研發重心與成果,此前曝光的新孖展或為這類深度研發提供更多支持。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10