作者 | 黃昱
4月23日,騰訊正式揭開了Hy3 preview (混元3.0預覽版)的神祕面紗,並開源。
Hy3 preview 是一個快慢思考融合的 MoE 語言模型,總參數 295B,激活參數 21B,最大支持 256K 上下文長度。
不難發現,Hy3 preview並沒有追求大規模參數,而是定位在了「兼具性能和性價比」,目標是成為大部分業務場景實踐落地的最優選擇之一。
在騰訊方面看來,300B是能力與效率的最優平衡帶。複雜推理、長上下文理解、指令遵循等能力在這個量級已經充分釋放,繼續擴大參數規模的邊際收益顯著遞減——投入翻倍,能力提升往往只在個位數百分點。
據介紹,除了日常對話(閒聊、寫作、搜索等)的能力外,Hy3 preview也着力提升在Coding和智能體、指令遵循、上下文理解等方面的能力,目前已經在元寶、ima、WorkBuddy、CodeBuddy等衆多騰訊內部產品中上線。
Hy3是騰訊在 AI 下半場的一次節奏校準。
過去幾個月,騰訊比較密集地進行了混元大模型團隊的組織升級和工作流重構,同時在今年2月也重新建立了包括預訓練和強化學習在內的大模型研發基礎設施,以及進一步提升數據質量。
騰訊彼時還建立了模型追求實用性的三個原則:一是強調能力體系化,不推崇「偏科」;二是評測真實性,主動跳出易被「刷榜」的公開排行榜;三是追求性價比追求。
Hy3 preview不僅是混元大模型在歷經全鏈路重建後的第一個大模型,更是騰訊首席 AI 科學家、AI Infra 部及大語言模型部負責人姚順雨加入騰訊後的首份成績單。
據華爾街見聞了解,Hy3 preview於2026年1月底啓動訓練,從訓練到上線用了不到三個月,這也被騰訊內部視作混元大語言模型嘗試解決真實世界問題的一個開端。
姚順雨表示,Hy3 preview是混元大模型重建的第一步。騰訊希望這次開源和發布,獲得來自開源社區和用戶的真實反饋,幫助提升 Hy3 正式版的實用性。
同時,「我們也在繼續擴大預訓練和強化學習的規模,提升模型的智能上限,並通過與騰訊衆多產品的深度Co-Design,持續提升模型在真實場景中的綜合表現,並開始探索特色模型能力。」姚順雨說道。
據悉,Hy3 preview研發過程中,混元模型團隊與元寶產品團隊進行了co-design。
混元團隊認為,模型的評估不是通過排行榜的簡單堆疊,而是對於複雜能力體系的適應,是在實際業務場景中的落地。所以一方面,團隊自建了50多個Benchmarks去評估模型的實際能力和落地性;另一方面,也與騰訊內部業務緊密貼合,讓模型在實際應用中學習進化。
Hy3 preview 上線發布,也是混元研發加速演進的一個重要信號。華爾街見聞了解到,在新的基礎設施和技術理念的支撐下,混元更大尺寸的模型也已經在路上。
如今隨着AI技術競爭進入下半場,大模型在完整工作流中的協作效果,或者說是「執行任務」的能力已成為競爭的焦點,這也是此次Hy3 preview重點提升Coding、智能、指令遵循和上下文學習能力的原因。
為驗證Hy3 preview 的幹活能力,混元模型團隊開展了面向內部用戶的人工評測,評測覆蓋 coding 與通用工作流等典型使用環境。騰訊提供數據顯示,Hy3 preview 在用戶盲評中的整體勝率約為 55%–56%。
目前,Hy3 preview也已經接入了騰訊內部的CodeBuddy、WorkBuddy等AI Agent產品。
騰訊提供數據顯示,在CodeBuddy、WorkBuddy產品上,Hy3 preview 首 token 延遲降低 54%、端到端時長降低 47%、成功率提升至 99.99%+。
在實際用戶環境中,Hy3 preview已穩定驅動最長495 步的複雜 Agent 工作流,覆蓋文檔處理、數據分析、知識檢索、MCP 工具鏈編排等多樣化辦公場景。
騰訊高級執行副總裁、雲與智慧產業事業群CEO湯道生在3月份公開表示,當前人工智能的應用範式正從「Chatbot」向「AI Agent」躍遷。AI落地不只是一道算法題,更是一道工程題——隨着主流大模型能力差距逐步縮小,企業比拼的不再是「誰的模型更強」,而是誰能通過工程化手段把模型用好。
顯然,騰訊正試圖證明,即使模型本身不是最頂尖的,只要「底盤」夠穩、接口夠多、工程能力越強,依然能打贏 Agent 時代的生態戰。
Hy3 preview 的發布,標誌着騰訊依然不執着於堆砌參數規模的神話,而是選擇在 300B 參數的基準線上,利用騰訊龐大的社交與工具生態進行高效率的「以戰養技」。
這種節奏感究竟能讓騰訊在 Agent 下半場走多遠,將取決於 Hy3 正式版能否在「讀萬卷書」之後,真正完成「行萬里路」的質變。