百度最強模型來了！五大場景深度實測，搜索能力突出

智東西

編譯 | 劉煜

編輯 | 陳駿達

智東西5月9日報道，今日，百度推出新一代基礎模型文心5.1。百度稱，文心5.1將總參數壓縮至約1/3、激活參數壓縮至約1/2，使用業界同規模模型約6%的預訓練成本，實現同級別模型基礎效果領先。不過，百度並未明確說明這一「6%成本」的具體對標模型範圍與口徑。

在LMArena 5月7日更新的文本生成大模型排行榜中，文心5.1全球總排名第14。與前面OpenAI、xAI的模型相比，得分存在微小差距。

圖源：LMArena官網

文心5.1在Agentic、知識、推理、指令遵循能力測試中，與DeepSeek-V4-Pro、Claude-Opus-4.6及Gemini-3.1 Pro展開了橫向性能對比。

Agentic能力測試中，文心5.1工具調用數學推理能力表現不錯，得分略低於Gemini-3.1 Pro排名第二。多輪工具協作交互能力弱於Claude-Opus-4.6居於第二位，與另外兩個模型能力差距較小。

在深度搜索Agent任務中，文心5.1較其他三款模型仍有差距，電子表格工具操作僅領先DeepSeek-V4-Pro，大幅落後Claude-Opus-4.6與Gemini-3.1 Pro。

圖源：百度文心公衆號

知識、推理、指令遵循能力測試中，文心5.1整體處於中等水平。高階學科知識推理（GPQA）和複雜指令遵循（AdvanceIF）表現較好，僅次於Gemini-3.1 Pro，領先另外兩款模型。

純數學推理（AIME26）和通用知識問答（MMLU-Pro）在四款模型中均排名末位，與頭部模型差距相對明顯。

圖源：百度文心公衆號

此次文心5.1推出距離文心5.0正式版上線已時隔三個多月。文心5.1模型發布時，登頂LMArena排行榜裏國內大模型搜索能力榜首位。

圖源：百度文心公衆號

實際評測中，我們從創意寫作、數學推理、信息整合、電子表格操作、編程能力五個維度對文心5.1模型進行了綜合體驗。

其中，創意寫作與電子表格數據分析我們均採用文心5.1思考模型進行二次實測。相比文心5.1快速模型，思考模型產出的內容敘事風格更有質感、情感調性更細膩自然，也未出現基礎性邏輯與文字錯誤；在表格數據分析任務上，思考模型的整體表現同樣更出色。

文心5.1對概率題的解答步驟嚴謹、答案准確；面對開放式模糊需求，能自主拆解任務、輸出表格對比和場景匹配，信息整合能力不錯；但在編程場景中短板突出，生成的代碼無法正常運行，實用編程能力仍有欠缺。

文心5.1模型的體驗鏈接為：

https://yiyan.baidu.com

以下是我們的完整體驗過程：

一、五大場景實測：文心5.1創作、數理、辦公、科普能力全面驗證

案例一：創意寫作能力測試，考察文心5.1故事架構與文學創作能力

針對文心5.1的創意寫作能力，我們首先用文心5.1快速模型進行了測評。

指令一：請為一個懸疑故事寫出前三章大綱，每章150字左右。

總體來看這個懸疑故事的大綱挺完整，敘事結構比較規整，邏輯層次也清晰。人物行動動機比較合理，線索設定具象可落地，最後的身份反轉顛覆感比較強，伏筆呼應也相對完整。不過，與現在市面上的流行的懸疑推理小說還有一定差距，對於模型本身來講，這個水準還不錯。

而後我們用相同的指令，對文心5.1思考模型進行評測。

可以看到，第二篇在切入點、恐怖感上更有新意。對於短篇驚悚故事，這篇的「循環替身」更適合直接收尾，有《恐怖遊輪》的循環壓迫感。不過普通租客為何能查物業記錄這一點可能是個bug。

我們接着讓文心5.1快速模型寫了一篇科幻類型的微小說。

指令二：寫一篇500-600字的科幻微小說。

這篇科幻小說篇幅把控精準，敘事結構完整閉環，人物情感刻畫比較細膩，整體文字流暢、故事完成度也挺高。但這個敘事框架比較常規，同時出現了人物身份混亂，比如文章主角之一是「爸爸」，可在中間的對話中卻說成了「媽媽」。

對於常讀同類科幻故事的讀者來說，劇情走向和結局伏筆可能略顯套路化，缺少出人意料的設定創新。

相同的科幻微小說指令也給了文心5.1思考模型。

可以看到，這一篇也是圍繞「意識上傳」這一經典科幻母題展開的。不過兩篇文章在敘事重心、情感落點、科幻設定和審美取向上存在明顯差異。比第一篇更好一點的是，這一篇沒有出現明顯的人設混亂問題。

從情感共鳴和敘事感染力看，第一篇相對更好。從科幻構思的新穎度和哲學深度看，第二篇略勝一籌。

案例二：給高考數學題，看它能不能按步驟算明白

用戶在使用AI解決數學問題時，痛點比較明確：怕AI沒有邏輯硬算，也擔心AI編造解題步驟和錯誤答案。

於是，我給了文心5.1一道2025新高考一卷的上數學題，看它是否能真正解決用戶遇到的數學問題。

題目為：一個箱子裏有5個球，分別以1～5標號，若有放回取三次，記至少取出一次的球的個數為X，則E(X)為？

文心5.1給出了完全正確的解答，無論是使用指示變量法，還是用分佈法進行交叉驗證，都步驟完整，並且結果準確。

案例三：問兩款大模型怎麼選，看它能不能替普通人做信息整合

普通用戶可能不會區分主流大模型強弱，也不知道按自身場景該怎麼選用。對標文心5.1官方Agent能力裏T³-bench多輪工具協作、深度信息檢索整合的核心維度，我們拋出模糊需求，看看文心怎麼解答。

問題為：我想了解DeepSeek-V4-Pro、Claude-Opus-4.6到底各有什麼強項和短板，普通人該怎麼選、各自適合拿來幹什麼。

可以看到，文心5.1的整體回答表現優秀。首先能夠自主拆解任務邏輯，無需人工指引，自發多維度逐層解釋對比，信息維度全面且細分精準，體現出不錯的信息檢索與歸納能力。

同時貼合了普通人使用習慣，做成表格對比、場景匹配、分人群推薦，最後還點明兩款模型的隱藏短板和使用誤區，給到務實的組合使用建議。

案例四：電子表格與職場數據分析能力測試

職場運營、門店管理、電商運營日常高頻剛需就是員工績效統計、數據篩選、業績排名、均值分析，常用到的是Excel表格來進行辦公。於是我們測試了文心5.1快速版本的電子表格工具操作能力。

需求為：我是門店運營，統計了本店10名銷售人員的當月個人成交業績：12.3萬、18.6萬、9.2萬、25.8萬、16.5萬、11.8萬、20.4萬、8.7萬、22.1萬、14.6萬。

你按照Excel分析數據幫我處理：整理成規範員工業績數據表，計算全員業績平均值、中位數，篩選出業績高於平均值的優秀員工，最後結合整體數據做簡單的團隊績效分析。

結果是，文心5.1在這個電子表格操作以及數據分析任務中，完成度挺高。不過沒有將所有數據放在一張表格裏。

於是我們繼續給出指令：幫我做成一份直觀的Excel表格，包含所有數據，同時可複製。文心5.1給的反饋比最初更精簡了，但指令「一份」可能給該模型帶來了理解誤差。

於是我們再調整指令為：把這些數據僅用同一張表格來顯示。

最後，文心5.1給出的結果還不錯，雖然官方測試中表格操作能力排名靠後，但在文本形態的職場數據分析場景裏，實際體驗並沒有特別差勁，能完成基礎需求。

該模型結果輸出比較磕絆，於是我們用相同的指令測試文心5.1思考模型。結果顯示，這次模型輸出的第一份結果更為簡潔規範，並且更為清晰直觀。與文心5.1快速模型第三次輸出的結果幾乎一樣。

案例五：

我們使用文心5.1思考模型，讓它製作了一個大型沙盒遊戲與小型跑酷遊戲。

指令一：製作一個單文件HTML的3D橫版格鬥遊戲，場景為被霸天虎入侵的破敗城市地圖，敵人為類人型賽博坦機器人，包含武器後坐力效果，採用低多邊形風格並帶有卡通美學。遊戲開始時，玩家位於街道上，周圍有建築廢墟；遊戲中應包含可被擊倒的細節物品，如汽車、樹木、石塊/瓦礫和自動售貨機。玩家可以選擇5種擎天柱陣營角色進行遊戲，並與5種霸天虎變種敵人戰鬥，這些敵人會不斷生成，遊戲為無限時間的沙盒模式。

文心5.1思考模型針對該指令生成了700餘行代碼，但實際運行時，該遊戲能夠正常打開，但界面出現兩個遮擋bug，也沒法對遊戲裏的敵人進行攻擊，無法操作。

指令二：製作一個單文件HTML的橫版跑酷遊戲，不依賴外部資源。主角是一名未來都市快遞員，在霓虹城市屋頂之間不斷前進。遊戲採用低多邊形風格，整體偏明亮卡通美術。

要求：

-玩家可進行跳躍、二段跳和下滑

-地圖自動向前滾動，包含屋頂缺口、廣告牌、電箱、無人機等障礙

-路上有可收集的能量電池和金幣

-玩家可以拾取臨時道具，例如護盾、加速和磁鐵吸附

-敵人為巡邏無人機和機械警衛，碰撞後會扣血-分數根據生存時間、移動距離和收集物計算-淑戲失敗後可重新開始

-需要有開始界面、暫停功能和簡單UI（血量、分數、速度）

-所有內容寫在一個HTML文件中，代碼可直接運行

針對第二個指令，該模型耗時3分鐘生成600餘行代碼，但無法打開，界面一片漆黑。可見，該模型在複雜遊戲編程與代碼可運行性上仍存在明顯短板。

二、彈性訓練實現降本，架構與後訓練流程同步革新

文心5.1是在文心5.0基礎上進一步優化得到的版本。它沒有從頭重新訓練，而是從文心5.0訓練好的子模型矩陣中，挑出一個效果最好的子結構直接使用，因此降低了預訓練成本。

其背後的主要技術更新，是一套叫Once-for-All的彈性訓練方法。

傳統做法想適配不同規模的模型，得分別預訓練好幾次；而文心5.0只在一次預訓練裏，通過動態採樣同時優化大量不同尺寸的子模型，最終形成一個覆蓋多種參數規模、不同計算成本的子模型矩陣。

也就是說，這套方法讓文心5.1在訓練階段就把不同模型一次性準備好，上線時直接挑一個最合適的來用，不用每次重新練。

基於上面的彈性訓練方法，文心5.1在參數和成本上的實際變化如下：

1、總參數量壓縮到文心5.0的1/3左右；2、激活參數量壓縮到約1/2；3、預訓練算力成本僅為同規模業界模型的6%。

相比文心5.0，文心5.1推理成本明顯下降，同時在同參數規模下，預訓練模型效果在同規模模型中表現更佳。

文心5.0彈性訓練示意圖（圖源：百度文心公衆號）

此次更新，文心5.1在其訓練方式上做了三方面改動：

首先是分離式架構。以前訓練、推理、獎勵計算、智能體循環四個環節耦合在一起，一個環節慢了會拖累整個系統。

現在百度將它們完全拆開，各自獨立部署、獨立擴縮容。比如推理算力不夠就只擴推理，不用動其他模塊。各模塊之間通過高性能網絡傳數據，控制流和數據流分開，流水線可以重疊執行，訓練整體耗時更短。

其次是FP8訓推方面。由於模型訓練時和推理時用的精度不一致，會導致效果下降，尤其在MoE結構里路由偏差更明顯。

於是文心5.1用了統一FP8低精度算子庫，並對Rollout Router Replay技術做了優化。結果是在開啓該技術後，訓練推理耗時幾乎沒有增加，但關鍵指標KL散度下降50%，訓練更穩定。

最後是異構彈性調度方面。集群裏會存在很多CPU算力閒置，文心5.1把這些CPU統一池化，用來跑代碼沙箱、驗證器這類邏輯計算密集但不需要GPU的任務。提升了資源利用率，也縮短了訓練迭代時間。

傳統大語言模型的後訓練是串行流程：先做監督微調（SFT），再做多階段混合強化學習。

這種方式存在兩個問題：一是慢，一個階段等一個階段拖慢整體迭代；二是能力會「打架」，想在一次訓練裏同時提升代碼、推理、對話等多個能力，往往提升一個另一個就下降。

文心5.1的做法是把專家訓練和能力融合拆開，分四步走：

第一階段統一SFT。先用高質量的多領域指令數據做一次基礎微調，讓模型具備基本的指令遵循和工具調用能力，作為後續能力擴展的起點。

第二個階段，並行訓練多個領域的專家模型，比如對代碼、推理、智能體等方向分別獨立訓練。每個方向用自己專屬的獎勵信號和算法，互相不干擾。

第三個階段是在線策略蒸餾（OPD）。把上一步訓練好的多個專家模型當老師，統一SFT模型當學生。學生按照自己的策略採樣，通過token級KL方法同時學習多個老師的能力，把不同專家的能力融合進同一個模型裏。

最後是通用在線強化學習。並不是所有任務都適合用蒸餾來融合，比如開放式聊天、創意寫作這類高熵分佈的任務，蒸餾反而效率低，輸出會變得過於平滑。所以這類任務不做蒸餾，而是在蒸餾後的模型上單獨做在線強化學習，保證對話多樣性、指令遵循能力和人類偏好對齊。

可以簡單總結為，代碼、推理這類確定性強的能力，通過蒸餾從專家模型融進主模型；聊天、寫作這類需要多樣性的能力不適合蒸餾，單獨做強化學習。兩套方式配合，既縮短了訓練周期，又避免了能力互相拖累。

文心5.1後訓練Pipeline示意圖（圖源：百度文心公衆號）

在百度文心內部評測中，文心5.1的創意寫作能力接近Gemini-3.1 Pro。此前文心5.0系列模型已多次登上LMArena文本榜和視覺理解榜，穩居國產模型第一梯隊。

結語：低成本實現性能追趕，能力尚有提升空間

文心5.1最引人注目的不是某一項能力的躍升，而是它試圖回答的問題，能否用更低的訓練成本，換來接近頭部模型的綜合水準。

從百度文心披露的數據看，在知識推理、指令遵循和創意寫作上，它確實站到了同量級模型的第一梯隊；但在工具調用深度、電子表格操作和純數學推理上，與Claude-Opus-4.6、Gemini-3.1 Pro等模型之間仍存在可量化的差距。

從實際體驗來看，文心5.1在數學題解答、生活化知識科普等面向普通用戶的場景中表現比較穩定，信息整合和邏輯拆解能力也可圈可點。創意內容存在套路化問題，高階表格辦公能力相對偏弱，部分場景需要反覆調整指令才能達到理想效果。

縱觀行業，主流模型逐漸呈現能力差異化、使用場景分層化的發展趨勢。對普通用戶而言，成熟的基礎模型能夠降低內容創作、問題解答、數據整理的門檻，提升日常使用效率；對技術廠商而言，低成本、高性能的迭代方案，也將為國產大模型輕量化落地、規模化應用提供了可行路徑。

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

百度最強模型來了！五大場景深度實測，搜索能力突出

熱議股票