對話商湯科技首席科學家林達華:生成不等於完成,AI創作的關鍵是理解人的意圖

市場資訊
07-28

  炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!

(來源:時代週報)

本文來源:時代週報 作者:雨辰

在AIGC技術快速迭代的當下,圖生視頻正在從實驗室走進創作室、工作坊和工業一線。

2025世界人工智能大會(WAIC 2025)期間,商湯科技聯合創始人、執行董事、首席科學家林達華博士在接受時代週報等媒體採訪時,深入剖析了多模態大模型的演進趨勢、技術挑戰與商湯的戰略佈局。他強調:“多模態能力是通向通用人工智能(AGI)的必經之路。”

今年5月,CreateAI發佈《多模態生成技術在動畫製作領域的應用與發展白皮書》,該報告首次以中國動漫電影《哪吒2》爲案例,結合權威數據,揭示了AI在激發創意與優化流程方面如何實現“降本增效”。

林達華認爲,生成式AI的未來,不應僅僅追求“從文字直接生成圖像或視頻”的技術炫技,而應聚焦於創作者意圖與結果之間的精準對接。“AIGC的終極形態,是一個真正服務創作過程的交互工具。”

商湯科技聯合創始人、執行董事、首席科學家林達華博士

時代週報:從技術角度來看,在視頻生成過程中,如何實現對空間結構和物理邏輯的有效把控?

林達華:商湯很早就佈局了數字人、三維建模等方向,因此在三維空間建構方面積累深厚。在Sora引發關注時,我們也研究了它的視頻質量,的確在視覺效果上令人驚豔,但它在物理規律的掌握上存在明顯不足——它採用的是基於時間的一幀幀生成邏輯,本質上並不具備三維結構的建模與控制能力。相比之下,商湯內部一直在探索如何將三維結構能力應用於視頻合成,讓生成視頻在空間結構和物理邏輯上都更加真實可控。

這一優勢也體現在我們參與的奧運場景應用中。例如在去年奧運會乒乓球等項目中,我們把三維的結構的這種信號,用於控制視頻的生成,使得它生成的結果符合物理的結構、物理的規律。成功實現對球拍與球體軌跡的精準還原,爲賽事回放與輔助判罰提供了強有力的技術支持。

時代週報:在實際運用中視頻生成結果“符合物理邏輯”有多重要?

林達華:這是我們高度重視的關鍵能力。生成內容不僅要“看起來真實”,更要“邏輯上成立”。例如,商湯的“開悟”世界模型,在某種意義上,也可被視爲一種視頻生成模型,但它對三維結構生成的準確性和物理性的要求極爲嚴格。若生成的結果不符合物理規律,將其用於駕駛訓練,將導致災難性的後果。所以,相較於一些AI公司追求生成畫面越“炫”越好,商湯更強調結果的正確性:我們生成的畫面必須符合物理規律、空間邏輯,並具備可解釋性。

時代週報:圖生視頻較文生視頻有哪些提升?圖生視頻具體有哪些典型應用場景?在哪些環節真正能發揮價值?

林達華:相較於文生視頻,圖生視頻顯然具備更堅實的依託。以文字爲例,若要生成一隻在空中飛翔的鳥,單憑文字描述,系統難以構思出豐富的細節。然而,若有一張圖片作爲基礎,生成的結果便會日新月異。例如,要求系統生成“我媽媽微笑的照片”,若系統未曾見過你母親,又怎能憑空創造?顯然,必須有一張實際圖像作爲參考。因此,我認爲真正的個性化生成,不應僅依賴文字描述,而需以真實影像爲支撐,方能實現這一可能性。

從圖生視頻的角度來看,最直接的莫過於C端應用場景。假設你家中存有大量照片,希望讓它們“動”起來,這無疑是一個極具吸引力的創意。早期,我的團隊開發了AnimateDiff,影響力較大。如今,許多後續的圖生視頻研究都與AnimateDiff有着千絲萬縷的聯繫。我們注意到,這項於2023年開源的技術,被廣泛用於創作各類充滿想象力的視頻,用戶僅需幾張照片便能展開創作。

時代週報:圖生視頻價值在哪裏?您怎麼看AI和人類創作者的關係?

林達華:我們一直認爲,文生視頻也好,圖生視頻也好,都不是生成式AI的終極形態。真正的理想狀態,是將創作者的意圖與生成過程深度融合,把AI當作一個真正服務創作流程的“工具”。

在我理解,包括我們剛剛發佈的視頻平臺上的Seko AI,它是一個交互式創作工具,我們將視頻的製作視爲一種創作,而不是僅僅輸入一句話後就不管不顧,等待它生成一個結果。這個結果很可能並不符合你的預期,也不一定能直接使用。

真正有價值的是,它能大幅減少你的工作量,同時你仍能對最終的生成內容進行把控。當發現生成內容不合適時,你可以指導它進行修改,掌控生成的脈絡,這就是交互式生成的核心所在。

海量資訊、精準解讀,盡在新浪財經APP

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10