WAIC|商湯首席科學家林達華:多模態是通向AGI的必經之路

中國經營報
07/29

  “人工智能(AI)是一種途徑,其本質是要構建一種真實的智能。所謂真實的智能,就是像人這個智能體一樣,能夠跟真實的世界進行自主的交互,這是智能的終極目標。”在“2025世界人工智能大會”(WAIC)期間,商湯科技聯合創始人、執行董事、首席科學家林達華博士在接受《中國經營報》記者提問時指出。

  談及大模型的演進趨勢,林達華認爲,在向AGI(通用人工智能)發展的道路下,當下發展最快的語言模型是比較容易切入的第一步,而在真實場景中,AI需要處理的信息不止語言,最終要實現AGI不可缺少的是多模態的能力。

  本次WAIC期間,商湯正式發佈了日日新V6.5 “開悟”世界模型,與此同時還發布了“悟能”具身智能平臺。

  《中國經營報》:大模型發展至今,你覺得語言模型和多模態模型是應該分開來做,還是去做多模態的融合?

  林達華:多模態發展早期叫計算機視覺,2023—2024年多模態模型開始將不同模態數據一起訓練,形成跨模態理解能力。2024年下半年,谷歌Gemini模型提出原生多模態概念,形成更深入的跨模態建模能力。如今,多模態已從理解延伸到思考層面,經歷了從簡單嫁接、融合理解到思考的拓展過程。

  實際上,商湯是國內較早開展多模態融合的企業。我們在去年年中發佈“日日新”5.0後就立項研究,花了幾個月終於得出了答案。當有效融合訓練後,多模態模型在純語言任務中表現優於純語言模型,單獨語言模型沒必要了。從“日日新”6.0到最新的6.5都是多模態模型,在純語言、純文本任務性能達到先進水平。

  在“日日新”6.0前,商湯打通融合訓練流程,發現預訓練中段融合效率最高。“日日新”6.5實現融合思考,通過圖文交錯生成新圖形啓發思考得出結論。商湯是國內最早開展多模態融合且技術成熟的企業。從海外大廠的動態看,多模態大模型成行業趨勢,國內廠商預計今年下半年跟進,商湯起步更早、技術更成熟。

  《中國經營報》:商湯在大模型浪潮中看到了哪些新的機會?

  林達華:我從幾個角度闡述商湯對AI技術的思考。首先,ChatGPT讓全世界看到AI技術上了新臺階,它帶來了巨大變革浪潮,有重塑世界、生產生活的可能性,商湯想抓住這一浪潮創造更高影響。其次,此次浪潮核心在於,過去AI 1.0時代的深度學習模型只能做專門工作,而通用AI模型自主性強、通用性高,能完成複雜工作,且交互方式更自然,這是與上一時代AI不同的能力發展。

  有了這些能力,就能重塑未來產業,比如一是軟件構建。寫代碼的終極目標是造軟件,編程從傳統方式轉變到高級語言後,能寫程序的人增多,軟件和互聯網產業興起,但寫程序仍需專業培訓。未來,軟件構建將更便捷,普通人無須掌握專業語言,提出需求就能造軟件,這實現了能力解放和平權,會改變產業格局。例如,拍電影從專業化工作,因AI變成全民可參與的事。商湯認爲,AI能顛覆辦公模式,讓辦公更高效,這是變革生產力的機會,未來辦公軟件和軟件構造方式都將改變。

  二是交互。過去交互方式不自然,未來交互無處不在,智能硬件能像夥伴一樣貼心回應需求。商湯的交互模型與硬件結合,能重塑未來交互方式。這些能力提升帶來未來模式變革,是商湯的機會。

  《中國經營報》:商湯進軍具身智能領域的考量是什麼?

  林達華:多模態發展要經過三個重要發展階段,前兩個階段——語言與多模態融合、多模態思考過程都在數字空間進行信息處理和判斷,最終要影響現實世界,需實現數字與物理空間連接,這是到達AGI的重要一步。

  從技術發展脈絡和商湯自身積累看,商湯多年從事計算機視覺,構建了多模態模型與技術,在與硬件公司合作及智能駕駛中積累了模型規劃、控制技術體系。所以,商湯具備讓智能體理解空間、規劃行動的技術基礎,此次提升具身智能平臺,旨在支持其生態化、智能化發展。同時,具身智能市場快速成長,商湯希望捕捉商業機會,其多模態大腦、具身智能與世界模型積累相結合,有佔據市場重要位置的優勢。

  商湯做世界模型,結合多模態基座積累與端到端閉環反饋,實現最終的對齊。商湯將世界模型用於自動駕駛模塊訓練已取得成功,絕影自動駕駛模型就是在世界模型的輸入下迭代而來。世界模型結合海量多模態訓練數據積累與真實閉環牽引,不會與現實脫節,用其牽引具身智能體和自動駕駛訓練,效率比僅依靠真機數據快很多。

  《中國經營報》:大模型和具身智能都需要持續的投入,商湯如何平衡長期佈局與短期回報?

  林達華:我認爲最重要的是研發要與最終商業願景對齊,這也是內部強調的重點。科研佈局有衆多事可做,選擇與判斷模型產生閉環價值需突破的關鍵點有關。因此,要通過商業落地校正科研和研究佈局航向,使其在商業上形成支撐與突破。比如商湯不做奧賽金牌相關,因其無法商業落地,而是追求可泛化推理,要求業務和教育上用到的數學做到 100 分。我們用業務倒推對技術演進和投入判斷點的思考,讓基礎模型投入支撐業務,這是關鍵閉環邏輯。另外,具身智能和基礎模型並非完全分割資源,具身智能世界模型建立在多模態積累基礎上,此前在自動駕駛和多模態大模型方面的投入構建了技術體系,所以額外投入沒那麼大。

(文章來源:中國經營報)

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10