出品|虎嗅科技組
作者|宋思杭
編輯|苗正卿
頭圖|視覺中國
智源研究院,曾一度想走上那條OpenAI的路。
虎嗅獲悉,2024年以前智源內部也討論過——是否要成立一個類似OpenAI的商業化子公司。但猶豫再三,他們還是決定回到初心:繼續做一家非營利的研究型機構。
就像如今的Anthropic之於OpenAI,智源也孵化出了一批從核心團隊走出的創業者。唐傑、楊植麟、劉知遠——他們都來自智源「悟道」系列項目的核心成員;後來在2019年、2022年和2023年先後創辦了大模型公司。其中,智譜AI(創始人唐傑)與月之暗面(創始人楊植麟)如今的估值均已在300億元人民幣上下。
換句話說,智源雖不直接下場,卻成為了大模型六小龍背後持續的力量。「讓有商業化想法的同學去創業、智源提供學術與資源支持」智源研究院院長王仲遠告訴虎嗅。而這種「成果孵化」的理念,也早已內化為智源的制度邏輯。
不過,王仲遠並非「悟道」時代的人物。他在2024年加入智源——那是「悟道」系列已暫告一段落的節點。此後,他提出了新的研究方向:「悟界」。其中,「悟道」與「悟界」的區別就在於,前者是大語言模型,而後者是多模態系列模型。
在王仲遠看來,大語言模型的技術路徑已經收斂,而多模態模型的路線仍未確定。他希望智源能在這個尚未被定義的領域裏,找到屬於多模態時代的Scaling Law。
就在今年10月,智源發佈了EMU3.5世界模型。王仲遠稱,它已「具備Scaling範式的潛力」。
然而,值得注意的是,本次的世界模型之所以叫3.5而不是4,正因為這只是通向Scaling Law的半步,離真正的「Aha Moment」仍有距離。
成立七年來,智源經歷了從「悟道」到「悟界」的兩次躍遷,它既是中國AI體系的底座之一,也是中國大模型公司的「原點座標」。但在這個越來越功利的AI時代,智源仍選擇保持一種非營利的倔強,它選擇繼續做那家「站在背後」的研究機構,儘管這意味着會被更有資源的商業化公司所超越。
以下為虎嗅與智源研究院院長王仲遠的對話實錄,有刪減:
01智源拒絕做OpenAI
虎嗅:你2024年加入智源,在這之後智源都發生了哪些變化?
王仲遠:我先介紹下個人背景。我職業生涯前半段在研究機構,後半段在產業界,既經歷了學術體系的嚴謹,也經歷了企業競爭的複雜。
2000年代初,我進入微軟亞洲研究院,在那裏做了六年多研究,後來我去了美國,在Facebook工作。那次轉型對我非常關鍵——從純研究走向產業落地。
為什麼會做出這樣的轉變?一方面是因為2012年深度學習進入產業化階段,AI1.0的研究瓶頸基本被突破,產業界開始真正需要AI技術解決實際問題。另一方面,當時我也感受到微軟在移動互聯網時代的轉型不夠成功,我希望能在一家更具創新精神的互聯網公司工作,於是去了Facebook。
從那之後,我的職業軌跡完全轉向產業——先後在Facebook、美團、快手分別待了幾年。在美團我彙報給王慧文,也是在那段時間裏第一次真正理解「技術、產品與商業戰略」之間的關係。那時我組建了最早一批做AI與大模型的團隊,後來其中不少人都成為了各公司大模型的核心技術負責人。
後來我加入快手,負責約兩千人的團隊,也負責過超兩百億預算的業務。但與此同時我也意識到,做業務意味着背業績指標,留給技術創新的空間會越來越小。而彼時AI進入了一個新的階段——從深度學習過渡到大模型的AI2.0時代。我開始意識到,大模型的出現不僅是技術演進,更是一次類似電力或互聯網級別的產業革命。
那時我就反思:如果未來二三十年都是AI驅動的時代,我希望自己能站在研究與創新的一線。
於是2024年我決定加入智源。智源的願景非常純粹——成為人工智能創新的引領者,營造一個開放、開源的生態,讓技術真正造福全社會。這種非營利、長期主義的科研機制,對我來說非常有吸引力。
我也一直認為,中國的AI研究機構要敢於做「高校做不了、企業不願做」的事。比如現在多模態模型的技術路線仍未收斂,未來能否找到新的Scaling範式,是值得長期投入的方向。這就是智源要承擔的角色。
虎嗅:你啱啱提到,自己過去在微軟、美團、Facebook等公司,以及現在的智源研究院,周圍都有非常高密度的人才。你認為,這類組織有什麼共同特徵?
王仲遠:真正人才密度高的組織,往往都有一個共性:使命願景驅動、價值觀一致。
早期的OpenAI之所以能聚集那麼多頂尖研究者,是因為他們最初的目標極為宏大——希望推動通用人工智能的發展,並讓它造福人類社會。正是這種共同的理念,把一羣志同道合的科學家聚攏在了一起。
當然,隨着OpenAI的發展,它也逐漸商業化,這本身是行業規律。但我們不能忽視的是,它早期確實是靠使命和信仰凝聚起的。
智源也一樣。雖然我們是一家非營利機構,但我們能吸引到很多放棄大廠「Special Offer」的年輕研究員,原因就在於,他們認同智源的科研信仰與長遠使命。
在企業裏,他們可能很快要服務業務、跟着短期指標走;但在智源,他們能真正投入到有長期科研價值、甚至能影響未來AI技術路線的研究中去。
這種吸引力,本身就是一種篩選機制。它篩掉了只追求物質回報的人,留下了對技術和科研有信仰的一羣人。這樣的人聚在一起,戰鬥力往往非常強。
虎嗅:智源也孵化出了像智譜、月之暗面這樣估值數百億的創業公司。你是如何保證智源在支持創新的同時,不走上OpenAI那種越來越商業化的道路?
王仲遠:這是一個非常好的問題。首先要承認,兩者的社會環境不同。智源從成立那天起就是非營利性機構,今年已經七週年了。七年來,這種模式在中國的AI體系中證明了自己的先進性與可持續性。
我們內部確實討論過要不要設立商業化部門,或者學習OpenAI的「雙實體」模式。但最後大家一致決定——堅持智源的模式,保持非營利的純粹性。
我們形成了自己的「智源模式」:在科研上佈局前瞻的技術路線,比如探索多模態世界模型、具身智能這些尚未收斂的方向;
在機制上允許年輕人「挑大樑」,甚至去外部創業。智源會提供支持,但不直接下場做企業;再來就是開源開放鏈接全球生態。
我們也建立了一個科研—孵化—成果轉化的閉環體系。智源通過早期孵化、後期股權退出等方式,獲得一定的造血能力,從而維持研究的長期獨立性。
但這套機制的出發點從不是盈利,而是讓我們更純粹地去做科研。
虎嗅:也就是說,智源在內部鼓勵年輕人創業?
王仲遠:是的,我們明確鼓勵。智源的「開源開放」理念體現在各個層面:我們做開源研究、開放合作、開放流動。我們的模型(比如Emu3.5)敢於完全開源;我們的科研人員可以自由流動,去企業、去創業,只要他們能延續這條技術路線。這種靈活性反而能保持整個機構的生命力。
如果有一天,別人沿着智源開源的技術路線,做出了更好的模型,我們會非常開心。因為那意味着我們真正起到了「科研引領」的作用——這也是智源存在的意義。
02多模態的「Scaling」時刻
虎嗅:回到「悟界」系列。你說Emu3和3.5都是為了未來的多模態和具身智能做準備。多模態主要依賴公開視頻、網絡數據,而具身智能更依賴真實的物理世界數據,這兩者在底層是相通的嗎?
王仲遠:這是一個特別關鍵的問題。首先,我們要釐清什麼是具身智能。過去一年多我最大的感受是——不同領域對「具身智能」的理解完全不同。
做AI大模型的人會認為,具身智能就是把一個「大腦」裝進機器人身體;而傳統做機器人或強化學習的人,會把「具身智能」理解為讓機器人能站穩、能抓取、能跳舞的端到端控制系統。
但在我們看來,那些都是「小數據」。即便你有幾百臺機器人採數據,從大模型角度看,依然遠遠不夠。這些數據只夠做局部的適配或遷移學習,不足以支撐智能的真正湧現。
所以我們提出要回到第一性原理。
人類之所以擁有智能,是因為我們通過視覺、聽覺、語言等多模態的長期學習,形成了對世界的理解——也就是「世界模型」。從嬰兒時期開始,人不是先從文本學習的,而是通過看世界、聽聲音、與人互動,逐漸構建了空間、時間和因果的理解。
這就是我們在Emu3.5裏想模擬的過程。
它並非簡單地在大語言模型上疊加圖像或視頻輸入,而是試圖像人類一樣「從多模態感知中學習」。
我們用了海量的視頻數據進行訓練,讓模型在視覺、語言、時間、空間等多維度上聯合學習。實驗結果表明,隨着數據量的增加,模型的多模態理解能力顯著提升,尤其在圖像文字編輯等任務上,性能明顯超越了現有模型。
這證明了我們的假設:真正的智能,需要回到人類學習的路徑。
語言和文字固然重要,但人類並不是從語言開始學習的。現有多模態模型「先語言、後映射」的路線,也許只是一個「短平快」的解決方案,卻未必是通往通用智能的最終路徑。
Emu3.5的貢獻在於,它用第一性原理的方法論,走出了一條新的多模態學習路線。我們發現,當模型在視頻序列中學習時間與空間關係後,它的智能水平不降反升,這種「湧現效應」說明我們可能找到了更接近人類認知的路徑。
虎嗅:你啱啱提到一個關鍵點——「Scaling範式」。能否解釋一下,EMU3.5現在處在什麼階段?距離真正的「Scaling Law時刻」還差多遠?
王仲遠:我們把模型命名為「Emu3.5」,而不是「Emu4」,其實正是因為它還在通往「Scaling Law」的途中。
目前Emu3.5的參數量大約在三百多億級別,相比語言模型的發展階段,大致相當於GPT-3.5之前的水平。我們認為它已經接近多模態領域的「ChatGPT時刻」——也就是那種從研究模型過渡到可產品化模型的階段。
但要真正達到「Scaling Law」,還需要更大的數據規模和算力支持。現在我們用的視頻數據只佔全網的不到1%,參數量也遠未達到上限。如果有十倍的算力和資源,我們相信能訓練出下一代模型。
只是,這可能更適合企業或資本參與推動。科研機構的角色,是驗證這條路線是否可行——而我們已經驗證了。
嚴格來說,我們現在找到的是「Scaling範式」,還未上升到「Scaling Law」。
後者需要數學公式去證明數據量、參數量與性能提升之間的定量關係;我們目前看到的是明確的正相關,但還沒把它形式化。
不論叫什麼,它意味着一件事:我們相信多模態模型已經出現了可持續的Scaling趨勢。
虎嗅:那在你加入智源之後,從EMU3到EMU3.5用了整整一年,這個進度是在預期之內的嗎?
王仲遠:其實我們沒有設定明確的時間表。
實際上,模型在今年八月份左右就展現出很好的效果,我們對它也非常有信心。
從去年10月的Emu3到現在的3.5,我們花了大量時間解決核心技術問題——包括自迴歸架構的誤差累積、視覺token的表達方式、大規模視頻數據的構造與配比等。這些問題看似細節,但每一個都影響模型的穩定性和智能水平。
本內容未經允許不得轉載。授權事宜請聯繫 hezuo@huxiu.com。
End
龍湖、洋蔥學園如何通過AI智能體重塑企業新形態?
AI Agent已成為企業運營效率革命的核心驅動力。但是大量GenAI概念仍停留在Demo階段,缺乏可量化的ROI證明。
為瞭解答 「錢該花在哪裏?」 和 「價值如何落地?」 11月19日晚7點,虎嗅智庫邀請峯瑞資本創始合夥人、洋蔥學園洋蔥學園聯合創始人兼董事長、龍湖千丁數科數智企業部負責人,一同探討如何將大模型的泛化能力轉化為企業內部可量化的Agent ROI。
點擊下方圖片,立即鎖定席位,與專家線上交流