諾獎得主、谷歌AI掌門人潑冷水:所謂「博士級智能」純屬無稽之談

智東西
2025/09/15

編譯 | 陳駿達

編輯 | 李水青

智東西9月15日報道,昨日,谷歌DeepMind的AI應用Gemini憑藉其圖像編輯模型「Nano Banana」的病毒式傳播,在美區蘋果App Store免費應用榜中取代ChatGPT,強勢登頂,成為該區域最受歡迎的應用之一。

近日,這場現象級的爆火背後的締造者——2024年諾貝爾化學獎得主、谷歌DeepMind創始人兼CEO Demis Hassabis,在All-in峯會上進行了一場深度分享,系統闡釋了從爆款產品到AGI未來的宏大議題,內容橫跨世界模型、機器人、AGI定義、科學智能、創作的未來和能源等多個前沿維度。

Hassabis將谷歌DeepMind定位為驅動谷歌的「AI引擎室」,Gemini、Genie、Veo等模型,都在深度融入谷歌的現有產品。其中,Genie 3世界模型正通過「逆向工程」學習物理規律,未來可能會推動機器人技術革命。谷歌還在Gemini的基礎上打造機器人模型,有望形成「機器人安卓系統」這樣的通用平台。

對於業界熱議的AGI前景,Hassabis給出了冷靜判斷,直言當前部分競爭對手所謂的「博士級智能」是「無稽之談」(nonsense)。雖然並未指名道姓,但相關表述很有可能指的是OpenAI聯合創始人兼CEO Sam Altman對GPT-5能力達到「博士級智能」的爭議表述。

▲Demis Hassabis(右)接受採訪(圖源:Youtube)

Hassabis認為,目前AI系統最大的缺陷,就是無法提出真正有創造性的觀點。要實現AGI系統,我們仍需等待1-2個關鍵技術突破的出現。他還透露,其領導的AI藥物發現公司Isomorphic進展迅速,預計明年進入臨床前研究,旨在將新藥研發周期從數年縮短至數周。

自上世紀90年代起,Hassabis就一直在從事AI相關研究,尤其對科學智能(AI for Science)有深厚的興趣。他認為,AGI有望成為科學探索的終極工具,其實現意味着科學黃金時代的到來,有望開啓又一場文藝復興。

以下是Hassabis在All-in峯會上採訪的實錄:

一、諾獎公布前10分鐘才知曉,DeepMind已成谷歌「引擎室」

主持人:首先恭喜你獲得諾貝爾獎。關於AlphaFold這一重大突破,大家都很想聽聽你得知獲獎時的情景。當時你在哪裏?是怎麼得知的?

Demis Hassabis:那是一個非常超現實的時刻。整個過程都很不真實。他們通知的方式是,在消息對外公布前大約十分鐘打電話給你。當你接到來自瑞典的電話時,整個人都懵了。這是每個科學家夢寐以求的電話。

之後就是在瑞典與王室共度的一整周頒獎典禮,非常神奇。最令人震撼的部分是,他們會從保險庫裏拿出諾貝爾獎簽名簿,你可以在那上面簽下自己的名字,和所有偉大人物並列。

翻閱那些頁面時,你會看到費曼、居里夫人、愛因斯坦、玻爾的名字,然後你也把自己的名字寫進那本書裏。這真是難以置信的時刻。

主持人:你之前有沒有想過自己可能會獲獎?

Demis Hassabis:外界會有一些傳聞,但令人驚訝的是,即便在當今時代,諾獎評選方依然能把消息保密得如此嚴密。這個獎對瑞典來說就像是國寶。

會有人說AlphaFold這種成果足以配得上諾獎的認可。但諾貝爾獎不僅看重科學突破,也重視對現實世界的影響,而這種影響往往需要二三十年才能完全顯現。即使聽到風聲,也無法預料會不會真的發生。對我來說是一個驚喜。

主持人:那我們來聊聊DeepMind。在Alphabet內部,DeepMind是什麼定位?具體負責什麼?

Demis Hassabis:我們現在稱之為谷歌DeepMind。幾年前我們把谷歌和Alphabet內部所有的AI研究合併到一起,包括谷歌DeepMind。各團隊的優勢彙集成了一個部門。

如今谷歌DeepMind是整個谷歌和Alphabet的「引擎室」。DeepMind打造的主力模型Gemini,以及其他許多模型,包括視頻模型、交互式世界模型等,都已經融入到谷歌各個產品中。

幾乎每一項產品、每一個服務領域都有我們的AI模型。如今已有數十億人通過AI概覽、AI模式、Gemini應用等使用Gemini模型。

而這僅僅是開始,我們還把它整合進Workspace、Gmail等等。這對我們來說是絕佳機會——既能做前沿研究,又能立刻將成果推送給數十億用戶。

主持人:你們的團隊規模有多大?人員構成是怎樣的?

Demis Hassabis:大約有5000人,其中80%以上是工程師和博士研究員。

二、Genie靠逆向工程學會物理規律,最終可推動機器人技術發展

主持人:模型在不斷演進,新模型層出不窮。前幾天你們發布了Genie 3世界模型。能給大家介紹一下嗎?

Demis Hassabis:這些畫面都是可互動的世界,根據文本提示實時生成的,用戶可以用方向鍵和空格鍵操控3D環境。

畫面中,每一個像素都是即時生成的,直到用戶進入那個區域,它才存在。整個過程充滿細節。

比如這個例子裏,有人正在給房間刷漆、在牆上畫東西。玩家轉頭看向右邊時,那部分世界才被生成。然後再回頭時,剛纔留下的筆跡還在。這一切都是實時生成的。

你還可以輸入「穿着雞仔戲服的人」或「水上摩托」之類的提示,它會立刻把這些元素加入場景中。真的非常震撼。

主持人:我覺得最難理解的地方是,我們都玩過帶有沉浸式3D元素的電子遊戲,但那些世界裏的物體都是預先建好的,需要Unity或Unreal這樣的渲染引擎。而Genie是在即時生成2D圖像。

Demis Hassabis:Genie實際上是在對物理學進行「逆向工程」。它看過數百萬條YouTube視頻和其他現實世界素材,僅憑這些就推演出了很多世界運作的規律。

當然,它還不完美,但已經能生成一致的一兩分鐘交互體驗,而且不限於人類角色,甚至可以操控海灘上的狗或水母。

主持人:3D渲染引擎的工作方式是這樣的:程序員需要把所有物理規律都編寫進去,比如光線的反射方式。程序員需要創建一個三維物體,然後讓光線在上面反射,這樣軟件才能渲染出來。但Genie完全不同,它是通過視頻訓練出來的,卻自己推理出了這一切。

Demis Hassabis:沒錯,它既用真實視頻,也用部分遊戲引擎合成數據來訓練。這一項目與我的個人興趣很有淵源,在90年代我職業生涯早期時,我便曾經開發過電子遊戲和遊戲內的AI系統,還自己做過圖形引擎。

我知道當年要靠手工編寫多邊形、物理引擎有多麼困難。而現在這個模型可以毫不費力地做到,甚至能實時渲染水面反射、材質流動、物體互動等複雜效果。

主持人:這些畫面的複雜性是難以想象的。這會把我們帶向何方?比如推演到Genie 5?

Demis Hassabis:雖然Gemini語言模型的能力在不斷進步,但它從一開始就被設計為多模態,可以處理圖像、音頻、視頻等各種輸入,並生成各種輸出。

我們之所以要構建這樣的模型,是因為我們認為真正的AGI必須理解我們周圍的物理世界,而不僅僅是語言或數學這些抽象領域。

這是機器人技術能夠運作的關鍵,目前這塊能力還是缺失的。同時,AI眼鏡如果想要在日常生活中發揮作用,也需要理解所處的物理環境和周圍世界的工作原理。

像Genie、Veo這些項目,實際上都是在訓練AI去掌握世界的動態和物理規律。如果模型能生成一個交互式的世界,那就說明它在某種程度上理解了世界的運行邏輯,而這最終可以推動機器人技術的發展。

三、谷歌想打造「機器人領域的安卓系統」

主持人:視覺、語言與行動模型(VLA模型)的最新進展如何?我們能否構建一個通用系統:機器人通過攝像頭觀察世界,然後我可以用文本或語音告訴它「請幫我完成某件事」,而它知道如何在物理世界中執行相應的行動?

Demis Hassabis:是的,正是如此。例如,你可以嘗試我們推出的Gemini Live版本:只需舉起手機,它就能觀察你周圍的世界。我建議大家親自體驗一下,它已經能夠理解物理世界中的許多內容,這一點非常令人驚歎。

下一步,我們可以設想將其集成到更便攜的設備中,比如眼鏡。那樣它就會成為一個日常助手——當你在街上行走時,它可以為你推薦信息,或者我們可以將其嵌入谷歌地圖等功能中。

在機器人領域,我們開發了Gemini機器人模型,它們是基於Gemini模型、並利用額外機器人數據進行微調的版本。

今年夏天我們發布了一些演示。我們佈置了桌面環境,兩個機械臂在桌上與物體互動,而你可以直接用語言與機器人交流。比如你可以說「把黃色的物體放進紅色的桶裏」,它就能將語言指令轉化為電機動作。

這體現了多模態模型的力量,而不僅僅是傳統的機器人專用控制模型——它能夠將對現實世界的理解融入與人的交互中。最終,這種模型能力將同時服務於用戶交互體驗,以及機器人與世界的交互。

主持人:我曾經問過谷歌CEO Sundar Pichai:我們是否最終能構建出一種機器人的通用操作系統,類似於Unix或安卓。

如果它能足夠通用,可以在多種設備上運行,那麼機器人設備、公司與產品將迎來爆發式增長,因為存在一種可廣泛適配的軟件基礎。

Demis Hassabis:這正是我們正在推進的策略之一,可以稱之為「機器人領域的安卓戰略」。但另一方面,將我們最先進的模型與特定類型的機器人設計進行垂直整合,實現端到端學習,也非常有趣。這兩種策略我們都在積極探索。

四、人形與專用機器人將共存,算法仍需進一步發展

主持人:人形機器人是否是一種合理的外形呢?有人認為它適合人類,因為我們自己就是人形,但解決問題可能需要不同形態的機器人,比如專門疊衣服、洗碗或打掃的形態。

Demis Hassabis:我認為兩者都會存在市場。實際上,五到十年前我曾認為我們會為特定任務開發特定形態的機器人。在工業領域確實如此,無論是實驗室或生產線,你會根據任務優化機器人的形態。

然而,對於通用或個人用途的機器人,尤其是需要與人類環境交互的場景,人形機器人可能非常關鍵。

畢竟,我們的物理世界是為人類設計的:台階、門道……一切設施都符合人的形態。與其改變整個世界,不如讓機器人適應我們已有的環境。

人形機器人在這類任務中可能非常重要。但我相信,專用形態的機器人同樣會有其市場空間。

主持人:你對未來五到七年的機器人數量有什麼看法?比如,你是否認為會有數百萬甚至數千萬的機器人?你有沒有一個願景?

Demis Hassabis:是的,我有。我在這方面花了很多時間思考。我覺得我們仍然處於機器人技術的早期階段。在接下來的幾年裏,機器人技術或許將會有真正的「Wow」的時刻。

但我認為算法還需要進一步發展。機器人模型的底座,也就是通用模型,還需要變得更好、更可靠,並且更好地理解周圍的環境。這將在接下來的幾年內實現。

在硬件方面,我認為最終會有成百上千萬機器人出現,關鍵在於硬件合適能發展到可以進行大規模生產的程度。當你開始建造大批量生產某款機器人的工廠時,就很難快速迭代機器人設計。如果你過早地開始大規模生產,那麼6個月後可能會出現新一代機器人,它更可靠、更靈活,這就比較棘手了。

主持人:用計算機類比的話,我們處於70年代的PC DOS時代。

Demis Hassabis:是的,可能就是這樣。我認為也許這就是我們所處的位置,但當時耗費10年完成的進展,在如今可能1年內就會發生。

五、AGI將成為科學探索終極工具,目前AI系統仍缺乏創造力

主持人:讓我們來談談其他應用,特別是在科學領域。我始終認為,我們能夠用AI解決的最偉大的問題,是那些人類目前憑藉現有技術和能力以及我們的大腦等還無法解決的難題。

你對哪些科學領域的突破感到最興奮,以及我們將使用什麼樣的模型來實現這些突破?

Demis Hassabis:將AI用於加速科學發現,並為人類的醫療健康事業做貢獻,是我投身AI研究的初衷,也是我眼中AI最重要的應用領域。

如果我們以正確的方式構建AGI,它將成為科學探索的終極工具。DeepMind在這方面已取得多項重要成果,最著名的例子是AlphaFold。

實際上,我們已將AI系統應用於多個科學領域,包括材料設計、等離子體與聚變反應堆控制、天氣預測,甚至解決數學奧林匹克競賽問題。同樣的系統,經過微調就能解決很複雜的問題。

但我們目前仍然只是觸及表面,AI系統尚未展現出真正的創造力,還無法像人類科學家那樣提出新的猜想或理論。我認為,這將是衡量AGI實現與否的關鍵標準之一。

主持人:你認為什麼是創造力?

Demis Hassabis:我認為創造力是那種我們常常在歷史上最偉大的科學家和藝術家身上看到的直覺性飛躍,也許是通過類比推理實現的。心理學和神經科學中有許多相關理論。

我認為一個不錯的測試方法是,給現代AI系統設定一個知識截止時間(比如1901年),然後觀察它是否能像愛因斯坦那樣,在1905年提出狹義相對論。如果能夠做到,那可能意味着我們真正接近AGI。

另一個例子是我們的AlphaGo程序。它在十年前擊敗了世界圍棋冠軍,甚至還發明瞭前所未有的新策略,比如第二局中著名的第37手。

但目前的AI系統還無法創造出像圍棋這樣兼具優雅性、滿足感與審美價值的遊戲。我認為,這正是當前通用系統或AGI系統所欠缺的。

六、「博士級智能」遠未實現,仍有部分關鍵能力缺失

主持人:你能分享一下具體哪些部分還有短板嗎?OpenAI的Sam Altman、Anthropic的Dario Amodei近期提出「AGI即將在未來幾年實現」的觀點,你認同嗎?

Demis Hassabis:這個問題的核心在於,我們是否能讓AI系統模仿那些頂尖人類科學家所展現出的那種直覺式飛躍,而不是僅僅做出漸進式的進展。

我常說,區分偉大科學家與優秀科學家的關鍵在於,兩者在技術上都非常出色,但偉大的科學家更具創造力。他們可能會從其他學科領域中發現某種模式,並將其類比或匹配到正在研究的問題上。

我認為未來的AI終將具備這種能力,但目前它還缺乏實現這種突破所需的推理能力和思維方式。

此外,現有AI系統也缺乏能力的一致性。有時我們的競爭對手聲稱AI系統已達到「博士級智能」,我認為這就是無稽之談(nonsense)。

它們不是博士級智能,可能在某些方面具備博士級能力,但並非在所有領域都達到這一水平——而真正的通用智能應能做到這一點。

正如我們所體驗到的,如果你以某種方式提問,當前的聊天機器人甚至會在高中數學或簡單計數問題上出錯。真正的AGI系統不應出現這類錯誤。

我認為,要實現能夠勝任這些任務的AGI系統,可能還需要五到十年的時間。另一個尚未實現的核心能力是持續學習,即系統能夠在線接受新知識或調整其行為。

目前這些能力仍然缺失,也許通過擴大模型規模可以實現一部分,但我認為可能還需要一兩個突破性的進展,這些突破有望在未來五到十年內出現。

七、模型性能提升未停滯,Nano Banana或實現創作普惠

主持人:一些報告和評分似乎反映出兩種趨勢:第一,大語言模型的性能逐漸趨於收斂;第二,性能提升的速度可能正在放緩甚至趨於平穩。這兩種說法是否基本準確?

Demis Hassabis:實際上,我們內部並未觀察到這種現象。我們依然看到顯著的進步速度,並且我們的視角更為廣闊。例如,我們的Genie模型、Veo模型,以及最近的Nano Banana,都展現出令人矚目的進展。

我認為,未來創意工具的發展方向是用戶能夠與它們自然交互,甚至通過對話進行操作,而系統能夠以高度一致的方式響應用戶需求,就像Nano Banana一樣。

它不僅在圖像生成領域處於領先地位,更突出的是其一致性——能夠在遵循指令的同時保持其他元素不變,使用戶能夠通過迭代獲得理想的輸出。這種能力預示着創意工具的未來,人們很喜歡這一模型,也喜歡用它來創作。

主持人:我記得小時候為了學習如何在Photoshop中去除圖像中的某些部分,不得不購買書籍,學習複雜的操作如填充、羽化邊緣等。而現在,任何人都可以通過Nano Banana輕鬆實現這些效果,只需向軟件描述需求,它就能自動完成。

Demis Hassabis:這一方面,這些工具正變得普惠化,普通人無需學習複雜的用戶界面即可進行創作;另一方面,我們也在與頂尖創意人士合作,打磨工具的設計。

例如導演達倫·阿倫諾夫斯基及其團隊,他們使用Veo等工具製作電影,並幫助我們優化工具功能。

通過與這些專業人士的合作,我們發現這些工具不僅適用於普通用戶,還能以十倍、百倍的幅度,提升頂級創作者的生產力。

他們可以以極低的成本嘗試更多想法,並快速實現高質量的作品。因此,我們認為這兩方面是並行不悖的:我們既面向日常使用場景,將這項技術普惠化,也在賦能高端專業用戶。

那些懂得如何使用這些工具的人,以及擁有願景、敘事風格和講故事能力的頂尖創意人士,能將這些工具發揮出更好的效用。

主持人:從文化角度看,一個有趣的問題是:未來娛樂內容將如何演變?是會每個人都能定製自己感興趣的內容,例如根據特定音樂風格生成新曲目,或基於電影《勇敢的心》創建遊戲體驗?還是仍然保持一對多的創作模式?

從文化角度看,這個問題頗具哲學意味。我們是否仍然需要由創作者共同構建的、具有共識性的敘事?抑或是每個人都將開始開發和構建自己獨特的虛擬體驗?

Demis Hassabis:基於我從90年代起從事遊戲設計和編程的經驗,我認為當前所見只是娛樂產業未來的起點。未來可能會出現全新的藝術形式或內容類型。在這種模式下,雖然會存在一定程度的共同創作,但我始終認為頂尖的創意願景家仍將發揮關鍵作用。

這些創作者能夠構建出引人入勝的體驗和動態敘事,即使使用相同的工具,他們的作品質量也會遠超普通用戶。與此同時,數百萬用戶不僅可以進入這些世界,還能參與部分內容的共同創造。在這種情況下,頂級創意者可能更傾向於扮演」世界編輯者」的角色。

這正是我們接下來幾年希望探索的方向,目前正在通過Genie等技術逐步實現這個願景。

八、大量時間投入AI藥物發現公司,明年進入臨床前期研究階段

主持人:你如何分配你的時間?也許你可以談一下Isomorphic,你是不是在那兒投入了大量時間?

Demis Hassabis:是的,我確實投入了大量時間。這是一家從DeepMind拆分出來的公司,正致力於通過蛋白質摺疊技術AlphaFold的突破來革新藥物發現領域。

雖然理解蛋白質結構是關鍵突破,但這只是藥物研發過程中的一個環節。Isomorphic正在開發與AlphaFold相關的多項技術,致力於設計能夠精準靶向蛋白質且避免副作用的化合物。

我們預計能將藥物發現周期從現在的數年甚至十年,縮短到數周級別。目前我們正在構建技術平台,與禮來諾華等製藥企業建立了深度合作。

同時我們也在推進內部藥物研發項目,預計明年進入臨床前期研究階段,後續將由合作伙伴推進臨床實驗。我們的研究重點涵蓋癌症、免疫學和腫瘤學等領域,並與MD安德森癌症中心等機構保持合作。

主持人:在藥物發現領域,我們需要如何平衡確定性模型(基於物理化學原理)與概率性模型(基於數據訓練)的協同工作?

Demis Hassabis:我們正在構建混合模型系統,未來5年也是如此。以AlphaFold為例,它既包含基於神經網絡和Transformer的概率學習部分,也整合了化學物理規則的確定性約束。

在生物化學領域,數據稀缺是常態,因此需要融入已知的科學原理作為約束條件。比如原子之間的鍵角,讓模型理解原子之間不能相互重疊等。

理論上,它可以從數據中學習這些,但那將浪費大量的學習能力,因此最好將這些作為約束條件納入其中。

就像AlphaGo一樣:讓一個神經網絡學會識別棋局中的模式,再在上面加一層蒙特卡洛樹搜索來做規劃。難點在於如何把學習型子系統與人工定製的子系統無縫結合。

主持人:這種架構能否帶來通向AGI的突破?

Demis Hassabis:我認為,一旦把混合系統跑通,下一步就是把得到的知識反哺回學習組件,儘量做端到端學習,讓模型直接從數據裏預測目標。

一旦用混合系統完成了初步研究,就可以進行逆向工程,看看是否可以將這些信息納入學習系統。

這正是AlphaZero的做法:拋棄人類棋譜和圍棋專用知識,從零自我對弈,結果不僅能下圍棋,還能通喫任何棋類。

九、AGI將開啓科學的黃金時代

主持人:AI的能源需求是一個熱點話題。這些能源需求將從何而來?模型架構、硬件,或者模型與硬件的協同會不會逐漸改進,最終把每個token的能耗或成本降下去,讓總能源需求曲線走平?還是說並不會,我們仍要面對一條很陡的需求曲線?

Demis Hassabis:我認為這兩種情況都是正確的。在谷歌DeepMind,我們專注於打造非常高效的模型,因為我們在內部有很多用例,需要為數十億用戶提供AI服務。模型必須極其高效,極其低延遲,並且成本低廉。

因此,我們開創了許多技術,使我們能夠做到這一點,比如蒸餾,讓大模型教小模型。過去兩年,在同樣的性能水平上,模型效率提高10倍甚至100倍。

現在,能源需求沒有減少的原因是,我們還沒有達到AGI。對於前沿模型,我們需要更大規模上嘗試和實驗新的想法。但在服務端,模型正變得越來越高效。所以這兩種情況都是正確的。

最終,從能源角度來看,我認為AI系統將在能源和氣候變化等方面回饋更多,而不是消耗更多。在未來10年內,AI將在電網系統、電力系統、材料設計、新型材料、新型能源來源等方面發揮巨大作用,這些貢獻將遠遠超過它今天所消耗的能源。

主持人:作為最後一個問題,請描述一下10年後的世界。

Demis Hassabis:哇,10年甚至10周在AI領域都是一段很長的時間。但我確實認為,如果我們能在未來10年內實現AGI,那麼這將開啓一個科學的新黃金時代。一場新的文藝復興。我們將在能源、醫療等各個領域見證AGI帶來的好處。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10