Kimi K2.6:大模型進入「長程執行」時代

藍鯨財經
04/22

文|硅基星芒

4月20日,謠傳即將發布的DeepSeek V4讓AI愛好者們的願望再次落空。

但臨近午夜,月明星稀之時,月之暗面悄悄給人們帶來了驚喜:

全新的Kimi K2.6模型正式發布並直接開源。

在過去的一年裏,國內 AI 模型群雄逐鹿,幾乎每天都有刷新人們認知的新消息。

而中文互聯網對大模型的討論也已經經過了三輪競爭周期:

第一輪是堆砌參數量的比拼,第二輪是上下文長度的競爭,第三輪則是喜聞樂見的價格戰。

但Kimi K2.6的誕生,意味着月之暗面也率先進入了大模型競爭的下半場深水區,也就是長程執行(Long-range Reasoning & Execution)。

儘管在這個值得歡喜的日子潑冷水有些不解風情,但我們仍然必須直面一個客觀存在的分水嶺。

在不考慮多模態的前提下,國內外AI模型的水平已經出現了明確的代差。

啱啱發布Claude Opus 4.7的Anthropic和更新的Codex的OpenAI在編程等強邏輯領域已經遙遙領先,這些產品也成為擁有訪問渠道且預算充足的開發者的首選。

國產AI企業推出的新產品,本質上還是追趕兩家企業上一代的旗艦模型,並以此競爭成為其餘開發者們的「國產平替」。

這種平替的戰略並非被動防守,而是在性能分水嶺明確的現狀下,通過極致的執行力和本土化適配試圖在中國AI領域內生根發芽。

如果說Kimi的上半場憑藉長文本和超大參數量贏得了用戶心智,那麼K2.6的出現則宣告了戰略重心的轉移:從一個信息容器,到一台執行引擎。

讀完十萬字的文檔、做好幾十頁的PPT、下單網購各種產品,那是上個時代(儘管只過去了兩個月)的Agent做的事。

而Kimi K2.6,是一個可以連續工作13小時、指揮300個下屬「數字牛馬」、獨立交付數千行工業級代碼的「數字承包商」。

這場深夜發布的背後,也隱藏着CEO楊植麟對規模化法則(Scaling Law)的最新修正和月之暗面試圖通過KVV項目重塑開源生態鏈的深遠規劃。

 長程執行的奇點

儘管詳細的技術論文還沒有發布,但官方博客中的兩個數據已經足以讓技術圈和商業界同時感到震驚:

13個小時連續編碼、300個子Agent並行協作。

在過去的幾個月中,Agent這個詞被人口口相傳,彷彿AGI在幾天之後就會突然實現。

但現實是,絕大部分Agent直至目前還只是玩具,或者不太好用的工具。

一旦任務鏈路被拉長,AI必然陷入記憶衰減或邏輯漂移。對於一個業務場景複雜的企業來說,這個核心痛點直接制約了Agent的實際落地。

然而,Kimi K2.6實現了從任務到工程的質變。

就像這誇張的數據給人們帶來的直觀感受一樣,Kimi K2.6展現出了一種令人難以想象的長程穩定性。

在官方實測的一個極端場景中,K2.6成功在Mac本地下載了Qwen 3.5的一款輕量級模型,甚至還通過很冷門的Zig編程語言實現並優化了推理過程。

在超過4000次工具調用和12小時的不間斷運行後,K2.6的吞吐量從15 tokens/s直接提升到了恐怖的193 tokens/s。

而在另一個案例中,K2.6搖身一變成為了專家級別的系統架構師。

在重構擁有8年曆史的開源金融撮合引擎exchange-core時,它通過分析CPU火焰圖確定了瓶頸,並精準地修改了超過4000行代碼,使得峯值吞吐量飆升了133%。

在這兩個典型的應用背後隱藏的商業真相呼之欲出:編程就是目前AI創造價值最顯著、閉環最快的行業。

對於開發者來說,Vibe Coding(氛圍編程)的流行已經證明AI的商業落地必須錨定在具備高頻率、高容錯閉環的場景。

需要人們每一分鐘都盯着運行的AI實習生終究無法融入實際應用場景,因此K2.6選擇將自己打造成產品經理。

與此同時,AI行業生產力的定義也在發生變化:人們只會為確定性結果而付費,而不是花錢購買API的調用次數。

這種誇張的執行力飛躍,本質上來源於楊植麟兩個月前在英偉達GTC大會上提出的「智能體群」範式。

K2.6的集群架構能夠支持300個子Agent並行完成4000個協作步驟,本質上就是在模擬人類社會的工業分工。

一個Agent只是「數字牛馬」,但300個Agent集群就是一個完全數字化的大型部門。

更重要的是,這個大型部門並不侷限於單一領域,它可以針對全球100個半導體標的執行量化策略,可以匹配100個職位並完全定製簡歷,甚至能將一篇高質量天體物理論文轉化為具體的學術技能、圖表和結構化數據集。

這種組織帶寬的擴張,恰好印證了為什麼開發者是目前全社會對AI付費意願最強的群體。

對於分散的個體C端用戶來說,改變固有的「免費工具」印象併產生付費訂閱是全球AI企業都不得不面對的難題。

但對於集群的B端企業開發者來說,這種能並行處理海量輸入、大規模執行操作的Agent集群是實打實的生產力工具。

當K2.6以這種龐大的規模開始進行流水線作業時,它就已經完成了從智力展示到生產經濟價值的躍遷。

 用邏輯打破算力壟斷

如此恐怖的長程執行和Agent併發能力,不由得讓所有人好奇月之暗面究竟是如何實現這一奇蹟的。

而答案,並非堆砌了無數顯卡,而是底層基建的一次效率革命。

就在5天前,月之暗面與清華大學聯手發布了一篇論文,名為《Prefill-as-a-Service: KVCache of Next-Generation Models Could Go Cross-Datacenter》。

「跑得快還省算力」的祕訣,就藏在這篇論文之中:混合注意力架構與KVCache的深度壓縮。

底層架構上的突破也直接回應了AI行業內一個看似矛盾的現象。

過去的兩個月中,以OpenClaw為代表的桌面代理僞需求狂潮逐漸落幕。

即便是還在堅持使用的人,也不可避免地面臨一個核心困境:

代理工具因為涉及頻繁的環境交互和工具調用,導致其Token消耗速度遠超常規使用。

如果代理工具無法完成高難度的工程任務,其創造的價值根本無法覆蓋高昂的算力成本。

然而,在僞需求清空的同時,真需求卻在增加。

國內大廠的Coding Plan價格不降反升,甚至陸續取消Lite級訂閱的新購和續訂,強推Pro和Max級服務。

這種趨勢說明,AI公司正在通過價格槓桿清退那些「調戲AI」的邊緣用戶,專注於服務那些真正用AI發揮生產力的核心用戶。

即便如此,像智譜等企業的訂閱服務仍然供不應求,好不容易搶到購買名額的用戶也反映一到高峯期就會頻繁限速。

價格上漲加上供給短缺,核心原因正是算力成本與真實產出之間的殘酷博弈,而AI公司必須讓Coding Plan等訂閱服務扭虧為盈。

月之暗面也不例外,Kimi採用的Kimi Linear架構,通過數學上的改良把KVCache流量壓縮了驚人的13-36倍。這種極致的壓縮讓跨地域傳輸KVCache成為可能,同時變得廉價。

而在系統層面,月之暗面順勢推出了「預填充即服務」(Prefill-as-a-Service, PrfaaS)架構。

它打破了傳統推理必須鎖死在昂貴的RDMA網絡中的物理邊界,利用被壓縮後的KV流量通過普通的跨中心以太網實現算力調度。

「模型壓數據+系統跑調度」的組合使得Kimi能夠用昂貴的H200專門負責預填充階段的理解,而讓便宜的顯卡在本地運行負責解碼生成。

這不僅符合工程美學,還讓月之暗面在高價訂閱的時代,通過底層基建的降維打擊為自己贏得了利潤空間。

伴隨節約成本而來的,還有智能上限的突破。

楊植麟曾經說過,Token效率不僅僅是工程問題,還關乎智力上限。

通過Muon優化器,Kimi系列模型在相同的訓練量下實現了2倍的效率提升,並在1萬億參數規模上解決了訓練不穩定的難題。

因此,月之暗面已經向世界證明,通過底層架構的改良可以實現token消耗戰中的降本增效。

 信任鏈的重塑

在K2.6的技術博客中,還有一個容易被忽略但十分有趣的事情,那就是月之暗面在開源模型的同時,還開源了KVV(Kimi Vendor Verifier)驗證項目。

看似有些多管閒事的舉動,實則折射出大模型進入B端交付時代的必然選擇。

既然AI行業已經普遍意識到最核心的受衆始終是開發者,那麼可靠性就一定會成為比智商更重要的准入門檻。

在現有的開源模型生態中,AI企業公布模型權重只是第一步。

然而,這些開源權重被第三方雲供應商部署時,往往會出於對節省成本等各種因素的考量,將模型參數進行調整。

如果參數設定不當,就很容易產生各種網購平台上「買家秀」和「賣家秀」的顯著差異。

對於較高付費意願、極低錯誤容忍度的開發者群體來說,性能上的折損是致命的。

如果用戶無法分清到底是「模型不行」還是「部署不行」,開源生態的品牌信任就會轟然倒塌。

KVV的推出,正是月之暗面試圖通過「立法」來確立行業規則的一次嘗試。

這項評測標準包含OCRBench視覺測試、AIME2025長輸出壓力測試、SWEBench軟件工程測試等六大維度,而月之暗面強制所有接入K2.6的服務商都必須符合官方的參數標準。

換句話說,KVV驗證,就是大模型行業的ISO 9001質量控制和Intel Inside的認證體系。

因此,稱之為一次極具洞察力的商業陽謀也不為過。

月之暗面已經意識到,國產AI路線目前最多也只能效仿Anthropic走專注於編程的垂直賽道,無法在C端創造出更多的奇蹟。

而為了贏得B端開發者的信任,就必須建立起一套透明、可追溯的信任鏈。

想賺Kimi生態的錢?那就必須在KVV的審查下保持100%誠實。

而通過這種方式,月之暗面就不再只是一個技術的提供方,而是AI生態環境和標準的制定者。

這種權力邏輯的轉變,恐怕遠比技術突破更值得深思。

04

通往社會操作系統的鑰匙

在官方博客的最後,還提到了一個正在內測的服務:Claw群組。

如果說K2.6是引擎,KVV是標準,那麼Claw群組就是月之暗面未來藍圖上的組織原型:

一個人類、異構Agent和跨平台工具共生的協同空間。

官方給K2.6的定義很明確,它將作為一個協調者,能接入來自任何設備、任何模型的Agent,並根據其技能畫像來動態匹配任務。

事實上,這纔是Vibe Coding理想中的形態。

在一個協同的群組中,開發者只需要定義目標和氛圍,剩下的複雜步驟由數百個攜帶不同專業工具的Agent自動分工完成。

這也是楊植麟此前在GTC演講結尾提出的願景。

回顧K2.6這次深夜發布,邏輯鏈路已經清晰可見:

通過長程執行解決「能不能幹活」;

通過混合注意力架構解決「幹活成本貴不貴」;

通過KVV解決「交付標準靠不靠譜」;

通過Claw群組解決「如何和人類一起幹活」。

相比於國內互聯網大廠,月之暗面在AI領域的起步顯然較晚,但其野心卻從未止步於做一個最好用的大語言模型。

面對全球範圍內的模型性能分水嶺和國內激烈的價格競爭,月之暗面選擇了一條最務實的道路:

在追趕國際先進模型的同時,專注於B端開發者場景,並通過底層架構的壓榨和信任標準的建立,構建一套完整的AI社會操作系統。

而Kimi系列模型的目標,就是成為那個定義規則、管理集群、實現指數級效率躍遷的決策者。

這場起步於追趕的下半場比賽,必將落腳於關於執行和信任的底層效率戰爭。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10