AI教母李飛飛最新訪談：AI的下一個前沿不是語言，而是空間智能

圖片來源：Fortt Knox

Z Highlights：

真正重要的是，整個人類社會、整個全球人口都能參與到AI當中，因為這是一項文明級別的技術。

AI是新一代的計算方式。這意味着：任何依賴芯片、依賴計算的設備、系統或場景，最終都會依賴AI計算。

空間感知智能（spatial perceptual intelligence）是智能的關鍵支點。我們日常生活中的絕大多數行為，以及整個人類文明中的工作，都依賴於空間、感知與具身智能。

李飛飛曾是Stanford Human-Centered AI Institute的創始主任，如今是World Lab的聯合創始人兼首席執行官，在空間智能領域引領創新。本次訪談是她2月4日在Fortt Knox節目上，與主持人Jon Fortt關於AI發展及公司最新情況的探討。

AI是一種文明級技術，不能只由「少數人」塑造

Jon Fortt：李飛飛博士，感謝你接受《Fortt Knox》和CNBC的訪談，也感謝你抽出時間。人們稱你為「AI教母」，因為你在塑造今天商業世界正在進入的這一現實中，做了大量奠基性的工作。事情的發展，和你當初預想的一樣嗎？

李飛飛：是，也不是。

首先，沒有任何一個人可以「獨佔」一個學科。我們今天所處的現代AI這場巨大變革，是幾代科學家和技術人員共同努力的結果。對於我們這些在這個領域已經深耕很久的人來說，我們當然一直相信AI的力量，也相信這門科學所能達到的高度。它是一種文明級別的技術。

但我必須說，過去——我可以說近十年，尤其是最近這幾年——AI發展的速度，真的超出了我們很多人最狂野的想象。看到整個產業全面擁抱AI，同時整個社會也從各種不同的角度、不同的維度，帶着非常強烈的情緒在討論AI，這種感覺至今仍然有點不真實。但與此同時，它也讓我感受到一種沉甸甸的責任。

Jon Fortt：你做了大量工作，來確保在AI的開發過程中，有更廣泛的人羣和視角能夠參與其中，也能獲得使用AI的機會。比如你曾多次談到女性在AI領域中的角色。我想請你幫我們勾勒一下，你眼中「利害關係」究竟在哪裏。

因為過去，我們討論的是文學作品中不同視角的代表性，討論的是媒體中的多元表達。但現在，我們幾乎是在直接構建世界的版本，而這些版本將會反過來影響現實世界如何運轉。為什麼讓多種多樣的聲音參與其中如此重要？

李飛飛：這不僅僅是「多一些不同的聲音」這麼簡單。真正重要的是，整個人類社會、整個全球人口都能參與到AI當中，因為這是一項文明級別的技術。無論我們談的是醫療健康、農業、教育的變革，還是機器人、能源與可持續發展，我們生活的每一個方面、工作的每一個方面，都會受到這項技術的影響。

人們經常問我：什麼是AI？該如何理解它的影響範圍和覆蓋面？我常用的一個例子——其實也不完全是類比——是去想一想「芯片」可以存在於哪裏。我們常常把芯片想象成那種體量很大、能耗很高的東西。但事實並非如此。現在幾乎每一個燈泡裏都有一顆非常小的芯片。你的冰箱裏有芯片。汽車裏有芯片。飛機裏則有大量的芯片。只要有芯片的地方——從最微小的芯片到大型芯片——就有計算能力。因為芯片是計算的硬件基礎。

而AI是新一代的計算方式。這意味着：任何依賴芯片、依賴計算的設備、系統或場景，最終都會依賴AI計算。所以你就能理解，這項技術的影響有多麼深遠。因此，它的「利害關係」就是——一切。當然，它會分階段到來，但在這個時間點上，我們的學界、我們的社會，必須理解這項技術的深遠意義。

Jon Fortt：我最近思考這個問題的一個角度是這樣的。幾個月前，也就是去年夏天，我有機會去曼谷參加CNBC舉辦的一場活動。在那裏，我見到了我一位高中時期的老朋友——Kasimatharn Pippachai。他當時正在SCB10X工作，參與一個叫Typhoon的項目。這個項目的目標，是構建原生泰語的AI模型，而不是依賴英語、普通話等等其他語言。在那次拜訪之後，在和我這位老朋友聊完他們正在做的事情之後，我開始用一種完全不同的方式去思考「本土化AI」的意義。

如果AI真正理解你的語言、你的文化、你的生活方式，那會怎樣？而如果它不理解，如果你根本沒有參與到這個系統的構建中來——誰會被包括進來？誰又會被排除在外？關於語言與文化如何深刻影響AI的理解方式，以及如果這些因素沒有被納入設計中，哪些人可能會被系統性地忽視——我們對這些問題的討論，是否已經足夠多了？

李飛飛：是的，我確實經常在世界各地旅行，與來自各行各業的人交流，包括歐洲、APEC地區以及美洲各國的政府與機構。我認為，人們、國家以及不同區域都非常清楚本土化AI的必要性。

我們現在的討論重點常常放在語言模型上，這當然非常重要。你剛纔舉的例子，本身就是一個語言模型的案例。但AI並不只等同於語言模型。即便我們只聚焦在語言模型這一點上，本土化AI對人們來說也是至關重要的。不同地區、不同背景的人，擁有不同的文化、語境、共同經驗以及情境細微差別。無論是藝術家、製造業從業者，還是其他任何行業的人，這些差異都必須被AI理解和尊重。

而且我認為，推動這件事的不只是「自上而下」的政策意圖，並不是因為我們覺得「應該這麼做」。真正的驅動力來自市場，來自人們本身的需求。我看到來自很多地區、很多政府，都對構建本土化AI表現出非常健康、積極的興趣。

語言模型不是終點，空間智能是AI下一前沿

Jon Fortt：你提到AI不只是語言，這是一個很好的過渡，引向World Labs。你關注的不僅僅是文本提示和回覆，而是沉浸式的、受物理規律影響的三維交互。我想這其中會涉及材質、觸感，甚至在某個階段，可能還能做烹飪模擬之類的事情。你認為在未來五年、十年，這樣的技術會帶來什麼樣的能力？你會把它和你多年前在圖像領域所做的工作，做怎樣的類比？

李飛飛：我的職業生涯是從計算機視覺開始的，它是AI的一個子領域。就像我一些同事是從自然語言處理起步一樣，最終自然語言處理與AI的其他分支共同推動了GPT這樣的技術出現。

在整個職業生涯中一直從事視覺AI研究，讓我深刻意識到：空間感知智能（spatial perceptual intelligence）是智能的關鍵支點。

從進化的角度、從人類自身的角度來看，我們並不是只靠「說話」來生活的。我們早上醒來，會擁抱自己的孩子。會給他們做早餐。會開車送他們去上學。我們自己去上班。點一杯咖啡，並且知道該如何端起它、喝下它。

我們日常生活中的絕大多數行為，以及整個人類文明中的工作，都依賴於空間、感知與具身智能。因此，在語言模型之外，AI的下一章、下一個前沿，正是空間智能。這也是為什麼我們在不到兩年前創立了World Labs。我們專注於打造下一代前沿模型，讓AI能夠推理、理解、交互，並生成三維、四維的世界。這些能力將賦能大量應用場景，包括：模擬、機器人、創意產業、設計、教育、醫療健康、製造業，以及更多橫向擴展的空間智能應用領域。

Jon Fortt：因為這在某種程度上就相當於「圖像捕捉」的進階版本，它可以教會系統理解事物是如何運動的、相互碰撞時會發生什麼、是否會碎裂，或者是否具有韌性。這些東西，單靠語言是沒法完整描述的，對嗎？

李飛飛：是的，確實無法做到。

首先，這已經不只是「用圖像來進行推理」那麼簡單了，因為那仍然是一種相對被動的方式。而通過世界建模（world modeling）與空間智能，AI可以變得具有主體性（agentic）。它可以被計算、被規劃，能夠為具身智能體（embodied agents）提供更主動的能力。

就像我剛纔舉的例子，比如說你在做一頓飯，哪怕只是做一份很簡單的意大利麪。你當然可以用語言來描述這15分鐘或20分鐘的過程，但那仍然是一種高度有損的信息表達。比如你是怎麼調醬汁的，你是如何把意麪放進水裏的，意麪在水裏發生了什麼變化——這些細微之處，幾乎不可能只用語言來準確描述。

而現實世界中的大量物理過程，不管是由人類發起的，還是人類與非人類系統之間的交互，本質上都超出了語言本身所能承載的範圍。

Jon Fortt：最後一個問題。我知道你今天還有很多事情要做、很多人要見，非常感謝你抽出時間。你們在World Labs所做的這些事情，有一個應用場景很自然地會讓人想到——那就是遊戲產業。這裏既有巨大的商業價值，也有創新空間和團隊協作的可能性。我們應該在多大程度上期待，你們的這些工作會體現在更快、更高效的遊戲開發中，並以此作為一種擴散影響力的方式？

李飛飛：是的，你說得完全對。遊戲和互動式體驗，確實是我們非常興奮的一個市場方向。就在去年，大約兩個月前——現在還只是二月初——我們發布了自己的第一個模型，以及一個名為Marble（World Labs出品）的產品原型。已經有非常多的遊戲開發者在使用這些工具，玩得很開心，也不斷向我們展示他們正在製作的作品。當然，目前這些還不是3A級別的大型遊戲，而是體量更小的項目，但這本身就已經讓我們非常興奮。因為這意味着，我們已經開始真正賦能遊戲開發者的創造力與創新能力。

Jon Fortt：非常期待接下來會發生什麼。李飛飛博士，感謝你接受我的採訪。

李飛飛：謝謝你，Jon。

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

AI教母李飛飛最新訪談：AI的下一個前沿不是語言，而是空間智能

熱議股票