炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!
當前,大模型技術正通過架構革新與多模態融合,重構空間智能發展的底層邏輯,推動其從實驗室走向產業化應用。傳統的人工智能方法關注處理結構化數據和遵循預定義的規則。然而,空間智能的出現就是爲了處理物理世界因多樣性、複雜性導致的更爲細緻的空間推理。通過空間智能,機器可以用類人的方式與周邊環境進行3D立體互動,並進行解讀;無可爭議的是深度學習模型已在各種計算機視覺任務中有了很多出衆的表現,但其面臨的挑戰,例如,怎樣集成多種數據類型並同時執行復雜任務就顯得尤爲突出。
我們邀請到特斯聯國際總裁、特斯聯首席科學家、AI Lab負責人邵嶺博士,一起就空間智能及衍生話題,諸如多模態數據融合等進行了探討。
特斯聯國際總裁、特斯聯首席科學家、AI Lab負責人邵嶺博士
邵嶺博士在人工智能領域有着數十年的前沿探索經驗。在他看來,真正的智慧在多樣性與分佈性中繁衍,而特斯聯的AIoT基因則使其在多模態數據的採集沉澱、軟硬件一體化、場景理解、生態系統構建等層面積累了一定的先發優勢,最終作用於空間智能模型的魯棒性和泛化性。
以下爲精選對話內容:
問題1:空間智能到底是什麼?與World Model(世界模型)什麼關係?
邵嶺:空間智能可看作是計算機視覺的高級呈現及延伸,它需要機器具有能夠感知、理解、推理並與三維物理世界交互的能力。空間智能不僅僅是簡單的物體識別,更重要的是理解物體之間的空間關係、環境的上下文以及這些信息對交互行爲的影響。
空間智能是繼語言智能(LLMs)後人工智能發展的下一個關鍵步驟,它能夠彌合“感知”和“行動”之間的差距。當前的人工智能在感知方面表現出色,但往往難以將感知轉化爲現實世界中的有效行動。空間智能則能夠成爲克服這一侷限性的關鍵。
另一方面,World Model(世界模型)是對環境和物理世界的一種內部表徵,它能夠預測環境未來的狀態並支持規劃。世界模型能夠學習現實世界的物理規律、空間屬性和因果關係。空間智能和World Model(世界模型)並不是同一概念,但它們之間是緊密相關的。
空間智能提供的強大的空間感知和理解能力,是構建準確、全面的World Model(世界模型)的必要前提。人工智能系統需要通過空間智能來感知環境、識別物體及其關係,並將這些信息整合到其內部的世界表徵中;World Model通過預測行爲後果和規劃,使得人工智能能夠將感知到的空間信息轉化爲有效的行動。
問題2:空間智能的主流實現路徑有哪些?
邵嶺:實現空間智能並非只有單一路徑,除了備受關注的LWM(大世界模型),還存在多種不同的、互補的技術路徑。這些技術路徑在覈心技術和解決問題的思路上有所不同,它們在特定場景下具有各自不同的優勢。例如,基於顯式知識與推理的技術路線,側重於結構化知識和邏輯推理;基於多模態融合的方案,強調整合不同感官信息以提升感知能力;基於具身智能的探索與學習方案,關注通過與環境互動自主獲取知識。隨着技術的發展,未來會出現多種技術的融合方法,例如將知識圖譜融入大模型以增強其推理能力,或利用具身智能進行更有效的數據收集。
特斯聯目前採用空間數據知識、領域模型工具,AI智能體以及空間感知模型技術相融合的方案,利用構建的知識庫和系統工具,增強模型的空間感知能力。探索這些多樣化的技術路徑,能夠更全面地推動空間智能的發展,使其在各種複雜和動態的環境中發揮更強大的作用。
問題3:特斯聯的空間智能方案優勢在哪裏?
邵嶺:結合我們自身的業務場景及行業經驗優勢,特斯聯採用的是一種融合的技術方案——利用積累的行業數據自主構建空間感知模型,並將行業空間數據、領域模型和場景經驗以系統工具及知識庫的形式與空間感知模型相結合,充分發揮我們在行業經驗和場景理解方面的優勢,增強空間感知模型的感知、預測和因果推理能力。
在具體實踐中,AIoT基礎設施爲空間智能提供感知能力,也爲空間智能增強提供了數據支持;領域模型學習了行業數據知識以及數據之間的內在關係,爲空間智能提供識別和理解能力支持;基於空間關係數據、領域模型、及空間智能技術構建出強大的空間智能體將爲具體的應用場景提供通用的智能底座。
問題4:從大語言模型到空間智能,還需要哪些技術能力躍遷?
邵嶺:空間智能的實現依賴於多種算法以及包括計算機視覺、機器學習和機器人學等領域的技術。比如,空間智能的感知能力依賴於計算機視覺和深度學習,這是空間智能的基礎;空間理解方面,爲了理解三維結構,AI模型需要處理三維數據,依賴於三維表示學習來學習物體的幾何和拓撲結構;在空間智能的推理方面,爲了理解圖像中的語義和空間上下文,並進行空間推理,需要利用視覺-語言模型(VLMs),強化學習(RL)技術;空間智能的執行能力則依賴於具身智能和環境模擬,在模擬的三維環境中訓練AI智能體,使其能夠學習導航和與環境交互……
總之,空間智能是人工智能和三維世界交互的能力,它通過感知、導航、操作、推理和環境生成等多種形式展現,並依賴於計算機視覺、深度學習、三維表示學習、多模態學習等多種算法和技術來實現。在這些技術中,有的技術已經發展多年相對成熟,有的學術和產業界纔剛剛開展研究,還需要更多時間共同推進和突破。
特斯聯在計算機視覺和深度學習、視覺-語言模型、強化學習、3D仿真、環境模擬等技術領域有多年的研發經驗和技術積累,相關技術已應用於多個項目、解決方案和產品中。此外,依賴在行業數據理解、數據處理及多模態領域多年的研發經驗,我們正在研發AIoT領域的多模態空間智能大模型,融合多種端側設備採集的多源異構數據,具有強大的空間感知、環境理解和因果推理能力,能夠直接從傳感器數據生成控制指令,從而實現更智能、更高效的場景決策和執行方案。
問題5:多模態數據的融合、對齊被認爲是空間智能發展面臨的主要瓶頸之一,特斯聯如何應對這一挑戰?
邵嶺:恰如吳志強院士所提到的,“智能的未來,不屬於一箇中心。它屬於多重大腦、多類代理、多元視角的協同網絡。”如同在自然界一般,真正的智慧在多樣性與分佈性中繁衍。AIoT基因則使特斯聯在多模態數據的採集沉澱、軟硬件一體化、場景理解、生態系統構建等層面積累了一定的先發優勢。
廣泛部署的AIoT端側設備,爲獲取海量、多樣化、細粒度的時空數據提供了有力支持,能有效減輕空間智能發展中的數據不足問題。一方面,部署在不同位置和空間的AIoT端側設備能夠捕捉到細緻、實時、全方位的環境信息;另一方面,覆蓋多個區域和不同應用場景的設備得以收集到更具多樣性的數據,這種多樣性有助於空間智能模型的魯棒性和泛化性。目前,基於端側AIoT產品,特斯聯已有能力採集、分析文本、視覺(圖像、視頻)、聲音、環境(溫度、溼度、光照、氣壓等)、位置(GIS座標)、生物、電信號等數十種模態的數據。
同時,特斯聯也在利用動態自適應時序同步技術實現不同模態數據之間的對齊——將所有的模態數據統一到同一個語義空間,結合大模型的預訓練和強化學習技術,打造與用戶場景對齊的多模態融合空間智能大模型。
特斯聯國際的下一步研發計劃,以滿足中東和海外市場需求爲目標,基於前期在行業市場中積累的數據、經驗和技術,打造系列專用的AI智能體,進一步增強中國產品和解決方案在海外市場中的價值和競爭力——這包括研發面向移動終端(智能可穿戴設備、機器人等)的智能體HALI,以及應用於智慧建築、智慧園區和智慧能源的空間智能技術等。
短期(1年)內,研發用於移動終端的AI智能體(HALI),爲智能可穿戴設備和機器人等產品構建類人思考、長期記憶、個性化等核心能力,進一步提高這些產品的交互能力和智能水平,爲個人和企業用戶帶來更高價值。
長期(3-5年)內,從專用的AI智能體出發,逐步向通用智能體方向發展。探索高維空間智能、自主學習、及多智能體等核心技術,實現智能體對複雜行爲和意圖的高級空間感知、理解和預測能力,並將這些技術能力應用於廣泛場景,進一步擴大中國科技在全球產業鏈中的優勢。
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。