
舊場景的驗證,新技術的競賽。
文|周鑫雨 鄧詠儀 富充
編輯|蘇建勳 楊軒
來源|智能湧現
2026年,中國AI市場註定硝煙瀰漫。
最重量級的玩家將在2026年展開殊死搏鬥。阿里對「千問」的戰略級投入將在2026年更加淋漓盡致,撒30億請用戶喝奶茶,就是一個聲勢浩大的開始;同樣的,大撒「元寶紅包」也不會是騰訊唯一的大動作。
而字節卻是個很難打敗的對手,它已經佔據AI to C的一線位置,且手握最大的流量,「豆包手機」也不會是它對突破邊界的唯一試探。
如果說此前幾年,大廠的AI業務尚在模型層的陽春白雪中,還有遲疑、走神的空間,但大廠如果想在AI時代依然是「大廠」,面對豆包高企的DAU,2026年是AI ToC市場最後一搏的機會窗口。
這場戰爭的重要程度,絕不亞於打車大戰、支付大戰、外賣大戰……我們曾經歷的任何一場戰爭。
對於「中廠」來說,隨着智譜和MiniMax的港股IPO、月之暗面和階躍星辰的孖展落定、新一輪模型的發布接力,「AI六小虎」的故事告一段落。
是否有餘力衝刺AGI成了薛定諤的命題,但自我造血對六小虎來說迫在眉睫。他們需要找到各自差異化的道路,尤其是商業化的道路。正如一名六小虎高管所說:不要貪大盲目IPO,二級市場的嚴苛審視會立刻反映在股價上。
不過,「目前沒有商業模式是成熟的,還需要經過幾年的探索。」某一線美元基金合夥人告訴我們。
商業模式的分化,一定伴隨着組織特性的分化。一名大模型初創公司孖展負責人一口氣舉出了5種主流的商業模式:ToC的訂閱和廣告付費、ToB的API售賣、ToB定製、按效果收費、軟硬件一體——每種商業模式對應着不同的選擇,例如,做ToC的一定要出海,做ToB的一定要會「打單」……
不過,最活色生香,最令人期待的,還是在創業公司,在AI應用領域。每個人都想成為Manus,成為ARR過億美金被大廠重金收購的對象,但是最充滿不確定性的也是這個領域。
難以琢磨,不可預測,卻充滿魔力。2026年,「智能湧現」將繼續用熱切的心情、開放的心態,關注AI創業領域。
關於模型技術的迭代、商業化,不同玩家的處境,「智能湧現」訪談了十幾位身處一線的創業者、投資人、大廠員工,總結了2026年的10大命題。

字節:守住優勢,追擊AI世界第一梯隊

前flow員工:AI入口的最佳形態還沒有確定
豆包做得最對的一個決策是,是將AI能力平權了——在很早的階段確認多模態為核心能力。在2025年,還抓住了最好的時機做增長。
2025年,字節完成的一個重要里程碑,是通過引進吳永輝為主的世界頂尖人才,現在已經逐漸完成一流模型人才的儲備,在基礎模型層逐漸穩居在國內第一梯隊。
但2026年,隨着AI助手和模型層的競爭變得更加激烈,如何留住這些人才,是最核心的命題。
某大廠戰略人士:今年最大的挑戰,是讓豆包聯動線下服務
2025年,豆包做得最勇敢的一個決策,是推出豆包手機。雖然這件事註定會被其他大廠圍攻,但這個舉動攪動了移動互聯網和手機廠商的現有利益格局,讓所有玩家都不得不加速行動。
展望未來豆包面臨的長期挑戰,是如何保持AI模型能力在最前列,同時把AI助手與普通用戶的真實生活連接起來——尤其是電商、外賣這類線下服務,字節雖然都有佈局,在組織上,字節相比其他大廠來說,歷史包袱少、依然是一個年輕有活力的組織,但怎麼內部協作得更好也並不容易。

阿里:再造新AI To C入口

某千問員工:不只是對外AI入口,也會成為阿里的底層AI能力平台
千問是阿里內部集全集團之力做的C端AI入口。從產品路線上,主打差異化,也是因為親民、親切的路線就已經有競品佔據了用戶心智,我們先以差異化的辦事、辦公場景切入市場,走專業路線,但長期目標是成為AI入口。
未來,千問不只是對外的AI入口,也會為阿里很多業務提供底層的AI能力。
2026年,我們的挑戰在於,阿里的業務體系龐雜,行業差距也很大。千問作為相對獨立的技術團隊,理解阿里內部其他業務對AI能力的訴求是困難的,怎麼和各業務單元之間做更好的協同,這是未來的挑戰。
某大廠戰略人士:2026年,大廠真正開打ChatGPT之戰的一年
阿里今年能從夸克切換到千問,並在千問這個產品上快速發力,背後是阿里強大的組織能力在支撐。
今年會是大廠真正開打ChatGPT之戰的一年,這是因為一條主線仍在持續:只要模型能力持續提升,新的功能釋放出來,就會有反哺業務的機會。
從競爭格局看,雖然市場已有過億DAU的產品,但市場遠遠沒有飽和,這是千問敢在這個時間段發力的原因。
目前,各家大廠的通用AI助手產品其實同質化程度都比較高,真正的差異在於誰能更快地迭代,誰能更好地把握用戶需求,長期地進行運營。AI助手市場還有很大的增量空間。
前阿里員工:用組織變革來換取決策速度
AI時代給了大廠一個重新定義入口的機會。原來的搜索、社交、電商入口都已經被佔據,AI助手有可能成為新的流量入口和推薦網絡。
問題在於,這個機會窗口可能很短。千問C端事業羣的推出,某種程度上是阿里在用組織變革來換取決策速度——與其在內部慢慢協調,不如直接推出新產品,用市場來驗證。

騰訊:AI應用和模型繼續補課

前元寶員工:DeepSeek再次刷新「模型即產品」的重要性
事實上,在接入DeepSeek之前,元寶就已經明確「模型即產品」的重要性,DeepSeek之後是更加強化了這一共識。這一年裏,元寶比較聚焦模型能力的提升,強化產品與模型的深度整合。
另外,元寶早期很早就定下來選擇聚焦高知人羣,走差異化路線,一是高知用戶對體驗和效果的要求更高,二是,他們作為AI領域的早期嚐鮮者和意見領袖,他們的使用習慣會影響周圍人羣,形成示範效應。
元寶成員:元寶要擺脫DeepSeek依賴
目前混元在模型市場上還沒有絕對的優勢。元寶提供的搜索服務,一部分基於混元,一部分基於DeepSeek。但截至2025年底,大多數用戶還是選擇DeepSeek作為默認模型。
最近,TEG的搜推部門合併到了元寶的搜推。此前,TEG搜推負責的是元寶中基於混元的搜索鏈路,元寶搜推負責的是DeepSeek的搜推鏈路。
其中的意義,一方面在於提高合作效率。另一方面,我猜測,未來元寶的搜索會對模型進行整合,以後內部可能就不會存在基於DeepSeek的搜索、基於混元的搜索,只存在「元寶搜索」。
某大廠戰略人士:關鍵要理清微信和元寶的戰略定位
相比行業內其他玩家的快速迭代,騰訊的節奏相對謹慎。比如,混元策略可能是不在基礎模型層面做正面競爭,而是聚焦Agent模型等差異化方向。接下來,騰訊需要在自研模型能力上拿出更有說服力的成果。
微信遲遲沒有將AI能力深度集成到裏面,也是因為國民級入口要面對的隱私和安全問題太多,難以在短時間裏解決。用「元寶派」等新產品的試水方式,本質上是希望加速產品形態的創新嘗試,而不影響原有用戶的體驗。
2026年,騰訊更需要解決的關鍵問題,可能是理順元寶和微信的戰略定位,才能更好發揮騰訊在產品層面的優勢。

百度:對着釘子造錘子
百度集團執行副總裁、百度智能雲事業羣總裁沈抖:智能經濟帶來無限機會,企業需要構建AI原生組織
AI正開啓「超級周期」,其價值將遠超互聯網時代。與互聯網僅改變信息交互不同,AI將深度重構「研產銷服」全產業鏈,撬動10萬億級市場。
大模型智能湧現,而智能體(Agent)是產業落地關鍵形態,已在編程優化、數字員工、工業SOP(標準化操作流程)等領域展現突破性效能。
企業需構建AI原生組織,推動自上而下的變革。未來企業中層很有可能大幅縮減,形成「決策層+智能體」的高效架構。
百度集團副總裁,個人超級智能事業羣總裁王穎:AI應用必須想得全、想得對、做得好
當前用戶在使用AI產品時,仍有三大明顯痛點:
一是認知偏差,幻覺問題未解決,也缺少個人知識沉澱;
二是落地斷層,AI手腦分離,即便能想但只能局部實現;
三是體驗割裂,即便能做也要在不同工具中轉移,AI能力、模態與格式無法一站滿足,用戶完成任務過程磕磕絆絆,時時碰壁。
要打造真正的超級個人智能體,賦能用戶成為「超級個體」,就應該充分解決掉上述的所有問題。
我們一直希望把百度文庫和百度網盤打造成為超級個人智能體,讓AI應用想得全、想得對、做得好,為用戶提供個性化、自由化、通用化的能力。
百度集團副總裁,百度電商、百度數字人業務負責人平曉黎:未來的數字人會持續自主進化
隨着視覺、語音、智能體等AI關鍵技術的突破,數字⼈也在加速進化。
1.0時代的數字⼈,只是簡單實現了虛擬⼈的表層,具備了基本的外形和聲⾳。
2.0時代是超擬真數字⼈,隨着⼤模型的問世⽽得到顯著提升,實現了對⼈物形象的⾼精 度克隆、⽀持⼤動作、擺脫了紙⽚⼈的效果,實現了數字⼈語⾔腳本和互動問答的⽣成。⽬前,業界主流的數字⼈就處在這個階段。
去年,百度率先發布了⾼說服⼒數字⼈,把AI數字⼈帶⼊了3.0階段,不僅形神⾳容⾼度協調、還會思考決策、能調度多智能體完成指定任務。
⽽在不遠的未來,擁有世界知識、不知疲倦的數字⼈,能夠持續⾃主進化,還能夠⽀持千⼈千⾯的個性化情感互動,將在更多的應⽤場景上超越真⼈。

模型商業化:賺高質量的錢

某模型初創公司高管:售賣模型API,只能作為短期商業化的補充手段
大模型主流的商業模式有5種:ToC的訂閱付費和廣告收費,ToB的API售賣,ToB和ToG的定製化,按效果付費,以及從數據側走向端側的軟硬一體。
選擇ToC訂閱的廠商,基本都選擇了出海,因為國內用戶付費意願還不高;售賣API的模式,本質上是雲服務的延伸,未來雲廠商一定會將API價格打得很低,獨立模型廠商很難實現規模化,因此API只能作為短期商業化的補充手段。
至於定製化,市場上一種論調是,大模型的泛化能力可以改變原有重交付的模式。但在國內,不僅需要有能交付的技術能力,人脈也很重要。
對初創公司來說,按效果付費和做軟硬一體,兩種模式都有機會。Physical AI的想象空間很大,未來智能終端有望成為新的流量入口和下一代推薦網絡。
但兩種模式都對初創公司的能力提出了高要求。按效果付費的前提,是模型能力足夠強。做軟硬一體的交付,要求公司有豐富、無短板的多模態模型矩陣,也要求團隊有資深的端雲協同交付經驗。
某模型初創公司成員:模型能力迭代,不跟着OpenAI走,跟着客戶需求走
2023年以來,我覺得賽道上很多模型公司都有「OpenAI病」,自稱要做「中國的OpenAI」,產品矩陣也強對標OpenAI。
但2025年,提要做「中國OpenAI」的公司變少了,反而提做Anthropic的變多了。其中一個很重要的原因是,大家發現,自己手上的錢和卡不夠了,無法支撐OpenAI那樣全面鋪開的產品矩陣。
資源有限的情況下,有些東西就不得不放棄。Anthropic已經證明,推理能力、Coding能力有市場、有付費,所以不少廠商2025年以來都將模型的迭代方向轉移到這兩者上。
所以,我相信未來不同模型廠商,模型能力也會根據自己的資源、優勢,以及下游客戶的需求,產生分化。
某一線美元基金合夥人:目前模型的商業模式都不夠成熟
在產品層面,AI時代的產品形態還沒有完全定型,原因在於模型能力還沒成熟。比如視頻模型的一致性、理解能力,都還在發展。這些能力成熟後,到底能實現什麼功能、落地什麼場景,大家都還在探索。
今天,像ChatBot類型的產品,大家都在用訂閱的方式收費。但這只是其中一種形態。OpenAI也在探索,ChatGPT要不要使用更高效的廣告模式,吸引更多用戶,而不是全部採取訂閱模式。
所以,目前沒有商業模式是成熟的,還需要經過幾年的探索。

找場景 :在垂直、細分領域找錢

極致上下文CEO廖謙:創業公司要找垂直場景切入,做端到端的服務交付
我不認為通用Agent會統一天下。在做用戶理解時,不同問題的交互形態完全不一樣,信息蒐集方式也不同。通用Agent會讓上下文變得駁雜,而且很難定義任務的好壞,商業模式只能是成本導向。
但垂類場景下,任務可以被明確定義,有行業統一標準。創業公司的關鍵是,要切入信息生產場景,做端到端的服務,而非工具。另外,要做生產場景而非消費場景(娛樂、社交),後者是大廠的必爭之地,創業公司切入比較難。
前百川智能合夥人、AI醫療公司緣啓智慧創始人兼CEO鄧江:不是所有的場景,都願意擁抱大廠
創業公司相較於大廠有兩個優勢。第一,創業公司在技術上更垂直、更深入。大廠很難做這麼垂直的投入,他們做的都是更普世、更廣泛的技術投入。
豆包、螞蟻這些大廠推出健康類產品,我是開心的。大公司每個決策背後一定有龐大的市場和數據支撐。
反過來,每一種病症,都意味着巨大的市場空間。比如皮膚病,中國有上億的患者,把皮膚病做好,都足夠立足了。所以未來還是看你能不能把垂直的能力做深做透。
第二,創業公司可以保持技術獨立。不是所有的場景,都願意擁抱大廠,因為大廠和客戶在某類場景上有深度競爭。無論數據安全,還是商業競爭,不管在哪個行業、哪個時代,獨立的技術公司都有自己的生存空間。
攀峯智能CEO王銘:2026年是Agent「按效果付費」的元年
傳統的SaaS工具模式,其經濟模型是「收取的訂閱費能否覆蓋算力成本」,至於用戶能否跑出結果,工具方並不負責。我們認為,未來的經濟模型應該會變成「獲取的任務分成能否覆蓋算力成本」,2026年會是按效果付費的元年。
這從根本上改變了產品的驅動力,迫使我們會花更多精力去打磨那些能直接幫助用戶賺錢,離ROI更近的功能。
這對資源有限的創業公司至關重要,因為大廠會逐漸往下尋找並佔據好場景。一旦驗證了Agent能幫用戶低門檻賺錢,傳播速度會非常快,因為用戶的決策成本幾乎為零——幫你賺到錢了,你再付錢。

哪裏去找錢:IPO是好事,
但不要盲目IPO

某一線美元基金合夥人:港股IPO是改善一級市場環境的契機
至少在過去,我覺得中國一級市場沒有辦法顯著支撐長期、鉅額,且不是淨利潤導向的研發投入。如果大模型企業不上市,未來在一級市場的孖展效率肯定很低,只能在現在30億、40億美金的估值基礎上小幅地融。
但港交所舉措越友好、IPO的公司越多,優質科技型企業有更順暢的退出渠道,並且在資本市場能得到國際投資者更公允的定價,這些事實都會反哺到一級市場。如果一級市場更活躍,中國的創新環境也會更好。
只有這樣的循環被打通,一級市場纔有可能真正支撐起千億美元的科技公司,而不是讓公司在早期階段就考慮上市。作為對比,SpaceX等到估值1萬美金,才考慮上市。他們前期發展的資金全來自美國一級市場。
綠洲資本創始合夥人張津劍:不要只做區域創新,要做讓全球資本看見的全球創新
很多投資者認為,AI最後就是中美的遊戲。但美國有很多標的,比如英偉達。但中國的AI標的,在世界上的面貌不那麼清晰。MiniMax 的港股 IPO讓海外投資者有了一個投資中國AI的清晰樣本。
接下來每一家AI、具身公司的上市,都是中美之間鑿壁偷光的一扇窗,讓外界看到中國有那麼多企業推動全球創新,從招股書上也能看到,他們的很多收入也來自全球。
同時,越來越多的海外投資人也想直接投資中國。2025年夏天,美國很多GP到中國走了一圈。歸根到底,只要中國有創新、有服務全球的能力,錢是會進來的。
創業者就應該堅定地去探索全球創新,而不是區域創新。未來中美之間有多少牆,就會有多少洞,比如港股IPO,比如2025年的DeepSeek和宇樹,只要堅持創新,就一定有好的錢主動找過來。
某模型初創公司孖展負責人:走向二級市場是「雙刃劍」
2026年初,月之暗面、階躍星辰接連宣佈了新一輪的大額孖展。這件事向行業證明,一級市場還能支撐大模型發展。
之前智譜、MiniMax的IPO向創業者釋放的信號是,在一級市場不一定融得到錢了,所以大家在匆忙地走向二級市場。
走向二級市場是一把「雙刃劍」。好處是企業擁有了更順暢的孖展渠道,更大的市場聲量。但也要意識到,企業很快會面臨商業化的壓力。
能看到很多IPO的企業,立刻開始大力佈局ToB業務,因為ToB的優勢在於變現速度很快。二級市場給企業的業績兌現期是一到兩年,如果沒有達到預期,企業的股價會立刻下跌。

AI組織:小是趨勢,人效是關鍵

圖源:AI生成
Honghub鴻鵠匯發起人鄒凌:稱職的極小團隊Founder,要會找機會、有執行力、能自我營銷
能把一人公司或者這種極小組織公司良好經營起來的Founder,身上通常具備以下三種核心能力:
一,找機會的能力。他們往往在某個行業深耕多年,可以從自身行業經驗中提煉真實痛點、找到可以用AI改進的低效環節。
二,快速執行力,能借助AI獨立完成短時間內做出初版甚至多個Demo,然後迅速獲得反饋,聚焦最有潛力的方向迭代。
此外,AI時代,很多早期項目並不依賴ToB銷售或獲客團隊,個人創業者還要擅長用社交媒體為自己「代言」。得有找到早期用戶、驗證需求,甚至帶來現金流的能力。
清華交叉信息學院助理教授、AReaL項目負責人吳翼:極小組織形式和全棧創新能力是相輔相成的
極小的組織形式和全棧的創新能力是相輔相成的。不僅是創業公司,大公司中的AI研發團隊也有必要做簡化。因為人的溝通帶寬是有限的,但大的組織架構必然會走向職責劃分和管理,而人類糟糕低效的Context Sharing能力會成為整個團隊的效率瓶頸。
傳統的組織中會把算法和Infra團隊分開。如果做模型時Infra團隊和算法團隊太過強調分工,容易產生一種情況,即算法團隊像是個甲方,Infra團隊承擔做「髒活累活」的乙方角色。
隨之而來帶來的問題是,做乙方的團隊,容易失去創新的空間;而習慣於做甲方的團隊,就可能不願意做髒活累活,這會很容易失去對於技術最底層的觀察、感知,和創新所需要的自驅力。
因此,AI研發組織中,算法和Infra是不能脫離成兩個團隊的。兩者共同設計、協同演進,纔可以形成一支小而有戰鬥力的團隊。
DeepWisdom創始人兼CEO吳承霖:不要迷信一人公司,組織的關鍵在「人效」
行業認為AI能夠提效,進而替代人力。但當每家公司都有計算機的時候,其實相當於大家都沒計算機。卷度只會上升,不會下降。
所以不要迷信一人公司,最終評價組織的維度應該是「人效」。每家公司80%的成本,其實是溝通成本,反而不是寫代碼、文檔的成本。AI可以精確規避溝通的隱形成本。
一些頭部AI公司內部已經用AI代替人來分工。Claude能夠識別員工的所有歷史行為,識別技能體系,判定舒適區,然後派稍稍超出舒適區的任務。
目前,人還需要作為AI的管理者。我們更需要的是技能全面、具有批判性思維的通才,去減少人之間的溝通問題。我們公司內部為通才成立了一個試驗性的組織「ROOT」,裏面沒有傳統崗位的劃分,每個人承擔從產品策劃到開發、管理的全棧工作,效率是傳統組織的好幾倍。

基礎模型下一戰:讓模型「看得懂」、「記得住」、「用得起」

Luma AI首席科學家宋佳銘:多模態需要走向「大一統」
2026年,大家有必要在「大一統」路線上做一些探索,也就是將圖片、視頻、音頻、文字等模態的理解和生成混合在一個模型中。
相比於單純的圖像、視頻模型,大一統的擴散模型的好處在於,有更強的In-Context Learning(上下文學習)能力和Zero-shot(零樣本學習)能力,天花板更高,落地的想象空間更大。
不少廠商都選擇將不同模態的模型拼接在一起,而不是統一訓練。這種方法會帶來短期收益,但長期來看,會延誤構建更好模型的時間。
前百川智能聯合創始人、來福電台創始人兼CEO焦可:AI 時代真正的壁壘是記憶
2025年行業對記憶的研究開始變多,但依然非常早期。人的記憶系統很複雜,每天都在睡眠中將短期記憶與長期記憶進行合併、遺忘和抽象,我們是在進行一場持續的日更訓練。今天還沒有一套成熟方案能夠系統性地做到這一點。
AI時代真正的壁壘就是記憶。這是所有AI產品的兵家必爭之地,我們之所以選擇從語音切入,也是因為語音能讓用戶最自然地表達出Long Context(長上下文)。誰能跟用戶說更多的話,誰纔有用戶更多的記憶,進而更懂用戶,提供更個性化的服務。
因此,對我們而言,DAU並沒有那麼重要,因為DAU隨時會走。我們更看重DTU,Daily Talk User(每日交流用戶),這代表每天有多少用戶產生新的記憶。以及LMU,Long-term Memory User(長記憶用戶),這部分纔是 AI 產品真正的價值。
前阿里/字節大模型帶頭人、Infix.ai創始人兼CEO、港理工人工智能講座教授楊紅霞:「去中心化」帶來落地
今天模型的落地有一個很大的鴻溝。不少高精尖領域、中小企業、醫院、政府機構都想用生成式人工智能,但遲遲無法實現,核心原因是現在的以個別廠商為中心主導的大模型沒有他們所對應的領域數據。
需要強調的是,模型知識的注入只發生在預訓練階段,所以模型在企業或機構的本地化部署,一定要啓動持續預訓練,因為醫院、企業、機構大量的本地化私有數據和知識,在互聯網上是無法獲取的。
同時,現在不同企業或機構的數據是很難共同分享的,導致了現有範式下模型無法做到全球化和全行業化。
我相信未來每家公司都會需要大模型這樣一個腳手架。所以,我們希望把「腳手架」做到最便宜、最易用、入門門檻最低,讓每一家企業或機構都有自己本地化部署的模型。
第二件事,我們想通過模型融合的方式,把某個領域的模型做到全球化。比如不同醫院的醫療專科模型融合起來,就能得到一個醫療領域的基礎模型。
所以所謂的「去中心化」,就是在各個領域,集大家的能力,一起做好領域大模型。

具身世界模型突破口:
算法要創新,場景要驗證

圖源:AI生成
大曉機器人董事長,商湯科技聯合創始人王曉剛:世界模型真要有效,必須有下游驗證閉環
2024年11月,我就主導發布過智能駕駛世界模型,但當時行業對這項技術的態度是「不太信」。
原因是,包括英偉達Cosmos世界模型在內,當時不少公司把世界模型當「數據生成器」。雖然可以在實驗室裏生成一堆看起來成立的場景畫面,但缺少下游真實落地驗證,沒人能回答「這些數據到底好不好用」,信任很難建立。
過去採集這類數據危險又貴,甚至得協調「演員車」上路復現。商湯則可以先在世界模型裏規模化生成大量場景畫面與解決策略後,再用上汽智己的實車對世界模型的決策進行檢驗、校準,讓模型能力在真實反饋裏越練越準。
同樣,世界模型在具身智能上也需要下游場景驗證。比如,大曉機器人先採用硬件更成熟的四足狗做「上街巡邏」的工作,在任務執行中驗證世界模型的能力,在真實場景裏持續迭代。
極佳視界創始人兼CEO黃冠:2-3年內將可能迎來物理世界的「ChatGPT時刻」
真機的「VLA+強化學習」正在快速迭代和擴展,但面臨巨大數據瓶頸,「世界模型」是被認為是未來能解決物理世界通用智能真機數據瓶頸的方式。
我認為,2-3年內將可能迎來物理世界ChatGPT時刻。關於「物理世界ChatGPT時刻」的定義是:在100種常見任務中,90%的場景下達到95%的成功率。
之所以認為這個時刻會在2至3年到來,是根據現有技術進展速度所進行的推測。這個過程目前並不是由世界模型完成所有任務,而是仍然需要與VLA、強化學習互相配合。具體而言, VLA解決的是作業的複雜性,世界模型解決泛化性,強化學習解決準確率和可靠性。
清華交叉信息學院助理教授、星海圖聯合創始人趙行:值得探索的前沿方向,是讓機器人預知未來
我們會去較為積極地探索世界模型,但它還沒有進入到工業化的技術階段。
與靠數據驅動的VLA不同,我覺得世界模型是一個非常典型的、靠聰明頭腦驅動的工作。它需要定義出一個最合理的算法,建模物理世界的運動規律。
如果能把世界的動力學規律給建模出來,那麼我們就不用再靠模仿學習的方式去訓練機器人了,機器人可以直接知道每一個動作的後果。
但是讓機器人預知未來,可能比讓機器人規劃現在的動作更難,這有點像為了解決一個難題還要創造另一個難題。所以它非常適合最聰明的、最前沿的實驗室去探索。
責任編輯:張恒星