CVPR 2025 多模態大一統：斯坦福 x 復旦符號主義建模生成式任務

　　炒股就看金麒麟分析師研報，權威，專業，及時，全面，助您挖掘潛力主題機會！

共同第一作者包括：陳家棋，斯坦福大學訪問學者，復旦大學碩士，研究方向為 LLM Agent和大一統模型；朱小燁，華南理工大學本科，研究方向為 LLM Agent、LLM 和強化學習；王越，康奈爾大學本科，研究方向為 LLM Agent、多模態語言模型。指導老師：Julian McAuley（UCSD）、Li-jia Li (IEEE Fellow, LiveX AI)。

在人工智能內容創作蓬勃發展的今天，跨模態生成技術正在重塑藝術創作和視覺表達的邊界。人們對需求也日趨複雜和多樣，譬如將靜態照片轉化為動態視頻併疊加環境音效，打造沉浸式的多感官體驗。然而，現有生成系統大多受限於訓練數據的覆蓋範圍，或是因複雜的多模型協調而效率低下，難以滿足這些日益增長的創意需求。

問題背景

圖 1用於 Any-to-Any 生成任務的一種符號化描述方法。

「將叢林的狂野生長與古老廢墟的神祕感融合成一個全新的場景，一定會令人驚歎，」你的藝術家朋友沉思道。「如果還能把這張照片轉換成視頻，再疊加上鳥鳴聲和潺潺流水聲——那將營造出一種夢幻般的感官體驗。」這些日益複雜、跨模態的創作需求指向了一個根本性挑戰：如何設計一個統一模型，能夠根據自然語言指令，無縫處理任意輸入與輸出模態組合的生成任務？這樣的任務就是該研究關注的「Any-to-Any」生成任務，如圖 2 所示。

圖 2 Any-to-Any 生成任務

當前 Any-to-Any 生成任務的方法主要分為隱式神經建模和智能體方法。隱式神經建模需要大量數據訓練，雖然能處理常見任務，但對新場景適應能力差且生成過程不可控；智能體方法雖然功能靈活但結構複雜，運行不穩定且效率較低。此外，如果人類設計師用 PS 合成圖像時，需要先背誦所有濾鏡組合公式才能操作，還有創意可言嗎？當前許多方法陷入了這種「知識依賴陷阱」——而真正的 Any-to-Any 生成，應該像兒童搭積木：不需要理解木塊分子結構，只需知道它們如何拼接。

於是，研究團隊設想構建一個框架：聚焦於統一的任務表示和語言模型友好的接口，從而實現直接的任務指定。使系統能夠真正理解並執行用戶以自然語言描述的任意生成需求，同時保持執行過程的可控性和可干預性。這一設想從根本上改變了傳統生成模型的實現範式，為構建真正意義上的 Any-to-Any 生成系統提供了新的技術路線。

基於符號化表徵的生成任務描述框架

框架設計的核心思路在於對生成任務本質的解構：任何複雜的多模態生成過程，本質上都可以拆解為「做什麼」（函數）、「怎麼做」（參數）和「執行順序」（拓撲）三個要素。基於這樣的見解，研究提出了 -Language，這是一種正式表示方法，系統地捕捉生成任務的這三個基本組成部分。此外，研究還介紹了一種無需訓練的推理引擎，它利用預訓練的語言模型作為基礎，從輸入指令和指定的關鍵函數中得出符號表示。

圖 3 語法風格比較。

圖 4 利用語言模型 (LM) 生成符號化表示。

通過三階段處理實現這一目標：組件推斷階段由語言模型解析任務描述，識別所需的函數 (F) 和參數 (Φ)；拓撲構建階段基於輸入輸出關係，建立函數間的數據流連接 (T)；迭代優化階段通過錯誤反饋循環 (R) 持續修正流程，直至滿足所有約束條件 (C)。圖 5 完整展示了從自然語言描述到可執行工作流程的轉換過程，從而實現了跨模態和跨任務類型的任意轉換。

圖 5 推理和執行的演示。

實驗結果

在實驗中，該研究構建了一個包含 120 個真實世界生成案例的數據集，涵蓋 12 個任務類別，並通過用戶研究和可執行性評估驗證了方法的有效性。

針對不同模態轉換任務進行了系統的用戶評估，以驗證該方法在真實場景下的生成質量。實驗結果顯示，在文本到圖像任務中，該方法對 Show-o 的勝率達 94%；在圖像轉視頻任務中，對商業系統 Gen-3 的勝率達 67%；文本到音頻任務中，對齊度和質量勝率分別達 100% 和 98%。

為評估方法處理複雜任務的能力，採用包含多步驟工作流的 ComfyBench 進行測試。實驗結果顯示，總體成功率 43%，顯著優於次優方法（32.5%），在複雜任務（如包含 11 個組件的「模型合併」）上表現突出。

消融實驗證實，兩階段推理架構（組件推斷 + 拓撲構建）是系統性能的核心，移除該設計將導致任務完成率下降 35%。

選取了當前最先進的代理框架 GenAgent 作為基線，在相同任務集上進行對比測試。實驗數據顯示，在編譯階段，該方法達到 98% 的通過率，相比代理方法的 84% 顯著提升 ($p \< 0.001$)；執行成功率方面，該方法 87% 的表現遠超代理方法的 63%。

針對「神經表示 v.s. 符號表示」這一核心問題，研究設計了控制變量實驗：在相同計算資源下，符號表示的內存佔用僅為神經表示的 1/5。任務修改效率測試顯示，修改符號化流程平均耗時 23 秒，而神經方法需要重新訓練（平均 4.2 小時）；但在端到端推理速度上，神經方法快 1.8 倍，這揭示了符號方法在實時性上的 trade-off。

通過對 120 個失敗案例的歸因分析發現，28% 的錯誤源於參數範圍越界，主要體現在跨模態任務中的單位轉換問題；22% 屬於模態不匹配錯誤，多發生在未明確指定輸入輸出類型的場景中；15% 由於函數缺失導致，這反映了現有函數庫仍需擴展。

總結

該研究提出的符號化生成任務描述語言及配套推理引擎，為多模態任務提供了一種無需專門訓練的全新高效解決方案。通過利用預訓練大語言模型將自然語言指令直接轉化為符號化工作流，該方法成功實現了 12 類跨模態生成任務的靈活合成。實驗證明，該框架不僅在生成內容質量上媲美現有的先進統一模型，更在效率、可編輯性和可中斷性等方面展現出顯著優勢。符號化任務表示方法或許能為提升生成式 AI 能力提供一條經濟高效且可擴展的技術路徑。

海量資訊、精準解讀，盡在新浪財經APP

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

CVPR 2025 多模態大一統：斯坦福 x 復旦符號主義建模生成式任務

熱議股票