
誰掌握Agent和高效基礎設施,誰將重寫行業格局。
文|趙豔秋
編|牛慧
在北京人形機器人創新中心的實驗場裏,CTO唐劍和團隊正在加速衝刺。今年春天,他們的機器人「天工」還需要工程師遙控才能跑完半程馬拉松,而幾個月後,在世界人形機器人運動會田徑場上,它已能完成全自主奔跑。

唐劍總結,具身智能的突破要跨越兩類瓶頸:一類是「非線性」的,比如場景泛化和大模型的飛躍,一旦突破,就會迎來「具身智能ChatGPT」時刻。雖然這在時間上不可預測,但他堅信,一兩年內行業會出現重大突破。另一類是「線性」瓶頸,比如穩定性、負載能力、續航和安全性,只要假以時日就能提升。
為此,行業正在展開激烈競逐。而競速並不侷限於機器人。自ChatGPT誕生的33個月以來,全球已出現4000多個大模型,催生近500家AI獨角獸。沒有一個模型能在排行榜上停留超過五周。
這些也推動AI基礎設施進行範式性變革,業界比以往任何時候,都需要更快的模型迭代和更強的計算平台。行業焦點從單一追求規模,轉向追求效能。
百度集團副總裁侯震宇直言:「我們正站在價值爆發的前夜,誰能把握住AI應用最佳實踐和基礎設施效能的提升,誰就能在未來AI格局中脫穎而出。」
01
「我們的護城河,還在嗎?」
儘管年初Deepseek引發一波應用探索熱潮後,整個行業依然在摸索落地路徑,但從上周舉辦的百度雲智大會上看,大模型應用蓬勃演進的速度,超出想象。
去年,大模型應用主力軍是互聯網、智駕、央國企和科研教育行業。「今年,除了KA客戶,出現了很多新型創企,像具身智能,還有從大語言模型轉向多模態類的,場景更豐富。」 百度智能雲AI計算首席科學家王雁鵬告訴數智前線,他將這些歸結於開源模型浪潮和產業蓬勃,點燃了更多需求和應用。
具身智能在經歷快速演進。北京人形機器人創新中心的「天工」,在今年春天的半程馬拉松上奪冠後,目前已開始出貨,今年可能銷售幾百台。中心與李寧等頭部企業探索在運動學測試、導購、電力巡檢等落地。「大家很快應該看到一些落地案例。」唐劍透露。中心也發布了具身世界模型、跨本體VLA模型等大模型的階段性進展。
多模態創新是今年另一類引人注目的方向。創業公司VAST是一家成立僅兩年的AI 3D大模型企業。AI 3D技術兩年多前才被髮明出來,VAST迅速將其商業化落地,已服務了全球超300萬專業建模師、4萬多家企業和700多家大客戶。
「我們正在改變很多工業管線。」VAST創始人兼CEO宋亞宸說。過去建一個遊戲模型要靠藝術家手工慢慢雕琢,現在用AI 3D只需幾十秒鐘、0.0001元。
大量AI陪伴類產品已悄然上市,售價從數百到數千元不等。AI陪伴機器人LOOI相關人士對數智前線說,上市幾個月,他們已在全球出貨3萬台,其中海外60%,國內40%。

除了新市場,傳統行業也在快速被改變。在金融領域,工商銀行已上線了1000多個智能體,尤其今年智能體數量增長迅速,讓交易形式、內部協作、風險經營等都發生了變化。
一家大型保險集團引入「數字員工」進行短期險邀約,意向率提升近一倍。百度副總裁阮瑜分析,結合多智能體以及真人級數字人交互體驗,基於慧播星數字人技術的百度數字員工效率與專業度顯著提升,交互還更具親和力,能建立更強的用戶信任。
數字員工一經推出,已迅速在100多個行業場景落地。像吳彥祖教英語、羅永浩直播帶貨,都掀起了不小的市場熱度。

開發者對大模型的體會更深,現在,幾乎所有程序員都在用AI寫代碼。根據百度工程效能部總監臧志的數據,AI Coding工具的代碼生成佔比已從20%提升至30%~40%,未來可能達到80%~90%。
值得注意的是,隨着大模型智力上限不斷拉高,各行業格局正被悄然重塑。7月,百度智能雲金融業務部總經理徐旭拜訪一家頭部保險公司副總裁,分享智能體應用場景時,對方拋出一個問題:「我知道這能做,但在這個時代,我們的護城河在哪?」
這折射出頭部企業的焦慮,技術創新正衝擊傳統壁壘,競爭格局正在改寫。徐旭認為,關鍵在於讓大模型直抵核心業務場景,用AI原生技術和新的管理範式重構競爭力。
正如百度集團執行副總裁、百度智能雲事業群總裁沈抖所說,AI創造的價值,會遠超互聯網。互聯網時代,網站和App封裝的是信息,交付的也是信息;而智能時代的核心是Agent,封裝的是智能,交付的是結果。一定會有大量的Agents去接管從生產到經營的各種環節,直接創造價值。而業界看到,AI全棧技術也正圍繞Agent加速重構。
02
十萬卡不是終點
格靈深瞳技術副總裁、算法研究院院長馮子勇,帶領團隊研發了視覺基礎模型 Glint-MVT,並將Glint-MVT作為視覺編碼器訓練出多模態模型Glint-VLM,用於各種多模態理解任務和推動世界模型發展。他們計劃在9月底左右將新一代Glint-VLM全量開源,這是一個達到商業級應用水平的模型,不僅放出模型,還公開訓練數據和代碼,讓學術界和產業界真正理解模型的生成方式和安全性。
探索並不輕鬆。馮子勇坦言,過去在模型訓練與實驗迭代中,整個驗證周期較長,亟需更強大的基礎設施支撐。與百度智能雲百舸平台合作後,百舸幫助其優化VLM訓練框架,訓練效率提升三倍,兩天內就能完成一次訓練,加快了實驗迭代速度。而對於工業場景99%甚至99.9%準確率的需求,他們還需要依賴專業場景數據,從真實反饋中迭代。
隨着模型規模、多模態、精度以及Agent的演進,對基礎設施的需求已大為不同。全球算力競賽仍在持續,科技巨頭在大模型上不斷「摸高」,Scaling Laws推動參數與算力快速增長。同時,Agent進入深水區後,上下文更長、多模態融合、強化學習和「訓推一體」範式,對AI基礎設施帶來了新得範式性變革。
業內也將目光投向高效Scaling方向,從稠密模型轉向MoE稀疏模型架構,MoE在保持計算量不變的情況下,可大幅擴大參數,萬億參數MoE模型已成普遍趨勢。
今年以來,雲大廠圍繞MoE做了大量工作。比如百度智能雲百舸5.0,圍繞MoE架構做了全棧優化。
MoE對算力的要求是之前稠密模型的5到10倍。王雁鵬說,僅僅一個PD分離還不夠,百舸5.0引入更系統的解耦,將視覺與語言、Attention與MLP等模塊也解耦,大幅提升算力利用率。這種更細力度的分離正成為演進趨勢。

強化學習同樣正在興起,成為最重要的計算範式變革。它採用「訓推一體」方式,模型在推理時不斷接受反饋並實時更新,形成數據飛輪,讓AI持續逼近真實需求。但訓練和推理在計算特性上完全不同,統一架構極具挑戰。年初DeepSeek R1推出時,市面上的強化學習框架尚難支撐。為此,百舸通過多輪實驗與工程創新,打造出新框架。
為進一步提升集群的效能,超節點成為行業競相投入的產品,用以降低通信時間、提升吞吐。百度4月發布的崑崙芯超節點,在性能與經濟性之間取得平衡。
過去外界擔心國產芯能否支撐超大規模模型,侯震宇介紹,崑崙芯P800已在3.2萬卡集群點亮應用,訓練效率超過98%,並在多行業落地驗證。它讓百萬tokens推理成本降至幾塊錢,同時適配主流模型和框架,成為真正覆蓋訓練與推理的國產芯片。

具身智能的崛起,也是基礎設施必須全力支撐的方向,百舸已全面適配主流開源具身VLA模型,並在WM世界模型和VLM模型上實現訓推提效,北京人形機器人創新中心基於此,將強化學習訓練速度提升了一倍多。百度智能雲已支持北京、上海、浙江、廣東創新中心等的具身智能「國家隊」,並為產業鏈上超20家重點企業提供支撐。
面向各級政府、超級大型企業,百度智能雲提供自主可控、綠色低碳、產業賦能的全棧AI智算方案,目前完成了1.2萬P算力建設並管理運營1500P算力,在IDC智算服務市場中排名國內第二。
03
Agent infra,越用越有價值?
除了算力基礎設施,Agent要落地,必須有進一步支撐。Agent正在成為大模型落地的主角。從最初的簡單應用,已發展為多Agent協同處理複雜任務。
Agent需要好模型。要不要行業模型、場景模型,很多行業存在「非共識」。百度智能雲AI與大模型平台總經理忻舟告訴數智前線,他們與企業在行業大模型上的探索,經歷了三個階段。
最初,企業提供幾十GB數據做後訓練,但很快發現效果有限,一個新的基礎大模型就能覆蓋原有成果,因為數據量不夠大。此後,企業開始結合具體場景,如設備維護,做數據標註,再在開源模型上做SFT或強化學習,訓練量小、效果更好。
而在當下,他們的實踐是先選擇效果較好的基模,參數規模大可先蒸餾壓縮;若效果不足,則補充標註數據訓練小模型,還可以將多個小模型融合實現更好的效果,並在生產中持續迭代優化。
值得關注的是,在這個過程中,基座模型可靈活替換,企業在過程中真正沉澱下來的,是標註數據、應用know-how和Agent開發經驗。
像智聯招聘在人崗匹配場景中,採用了第三種模式,其在人崗匹配場景中,基於百億參數規模模型,只用少量數據,就媲美千億模型DeeSeek R1的效果。CTO王昊稱,這是未來一段時間,垂直場景的「王道」方案。
忻舟告訴數智前線,從行業實踐看,貿然建設行業大模型,投入大、效果不確定,性價比不高。但行業模型的價值已被驗證,尤其是對於成本、精度和速度有考量的企業。此外,視覺、多模態基礎模型,準確率通常只有20%~30%,通過上述流程,在特定場景下準確率可超過90%,性價比極高。在新升級的千帆4.0中,提供了預製好的行業場景專精模型,以及一個為專精模型深度定製的pipeline。

在這個過程中,大模型的微調從SFT(監督微調)走向RFT(強化微調),也就是模型的自我進化。RFT通過提供評估標準或獎勵函數,讓模型在業務場景中自我探索,只要結果符合目標即可。這種方式尤其適合目標明確、標準清晰的場景。
有了模型基礎,下一步是如何讓Agent協作完成任務。業界主要有三種編排方式,其一是自主規劃,依賴大模型能力拆解任務,快速生成簡單Agent;其二是工作流,優勢是穩定可靠、結果可預期,目前在千帆平台上佔到80%以上;其三是最新流行的一種多智能體協作,千帆採用「規劃者執行者」模式,更靈活高效,還最先在國內雲廠商中支持A2A協議,實現跨平台、跨企業的Agent互通。
智能體編排好後,還需要「手腳」去執行,高質量能力組件變得非常重要,其中最關鍵的兩類是RAG和AI搜索。
千帆4.0的RAG已升級為多模態版本。九號電動車用五年登頂全球智能電動車銷量第一,藉助多模態RAG打造了多語種智能客服,車主只需拍照,就能獲得實時多語種的診斷和指導處理。
百度AI搜索則滿足了大模型的實時性需求。它是市場上呼之欲出、需求量非常高的API。大模型訓練基於歷史數據,如GPT-5的數據是截至2024年9月底的,難以覆蓋最新信息,而AI搜索可實時補充這一缺陷。忻舟介紹,這一功能上線三天,調用量就從十幾萬飆升到千萬級。最近,智聯招聘已在校園場景中應用,幫助學生實時獲取企業薪酬和麪試經驗。
Agent是未來最重要的研發範式,但是在這個研發範式背後數據的作用是無比重要的,無數據無智能。「我們發現工程師50%–80%的時間花在數據治理上。」百度智能雲數據平台部總經理劉斌說,此次千帆4.0推出的數據智能平台DataBuilder,就是為了解決這一門檻。

產品覆蓋了從多模態數據採集、轉換、處理、檢索、服務等數據治理的全生命周期,解決了模型訓練和 AI 應用數據處理過程中,從數據管理,數據開發到數據生成處理全鏈條訴求。
通過多模態管理和一站式AI計算引擎,幫助客戶實現600%數據處理提效和30%的計算成本降低,通過Data+AI一體化和麪向場景化和行業化模板,幫助業務整個開發提效30%,同時通過多模態檢索引擎幫助業務降低80%的檢索成本。
隨着Agent和大模型的深度融合,AI開始接管生產、經營和服務環節,成為新的價值創造者。無論是「天工」的全自主奔跑,還是數字員工的落地,都在印證AI已從實驗室走向社會。下一個智能時代的競爭,將不只是比拼模型和算力規模,而是比拼誰能更快、更穩、更高效地把智能封裝進Agent,嵌入到產業鏈與社會運行之中。而企業真正的護城河,正從傳統資源稟賦,遷移到用AI原生應用構建和新的管理範式重構上。
©本文為數智前線(szqx1991)原創內容