MIT團隊開發AI文生圖Agent,模擬人類素描,還可人機交互創作

市場資訊
2025/06/05

  炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!

當你試圖交流或理解某些想法時,語言往往力有不逮。有時更高效的方式是繪製簡單的概念草圖——比如用電路圖來解析系統運作原理。

但若人工智能能協助我們探索這種可視化表達呢?

當前,多數 AI 系統雖擅長創作寫實油畫或卡通插畫,卻難以把握素描的精髓:那種逐筆勾勒、反覆迭代的過程,正是人類藉以頭腦風暴並修正創意表達的關鍵。

近日,麻省理工學院計算機科學與人工智能實驗室(CSAIL)與斯坦福大學聯合開發的新型繪圖系統「SketchAgent」改變了這一現狀。該系統採用多模態語言模型,可在數秒內將自然語言指令轉化為草圖。無論是獨立創作還是人機協作,它都能完成繪製,既可以配合人類共同作畫,也能根據分段文字描述逐步構建草圖

該論文第一作者、CSAIL 博士後研究員 Yael Vinker 指出,這一系統開創了人機交互的更自然方式。「人們往往沒有意識到自己日常繪製了多少草圖。人類會用速寫來梳理思路或研討創意,我們的工具旨在模擬這一過程,讓多模態語言模型能更有效地輔助人類實現視覺化表達。」

雖然像 DALL-E 3 這樣的文本轉圖像模型可以創作出引人入勝的繪畫,但它們缺少素描的一個關鍵要素:自發的、富有創意的過程,在這個過程中,每一筆都可能影響整體設計。SketchAgent 的繪畫則被建模為一系列筆觸,看起來更自然流暢,就像人類的素描一樣。

先前的研究依賴人類繪製數據集進行模型訓練,其規模與多樣性往往受限。SketchAgent 則另闢蹊徑,直接調用預訓練語言模型——這些模型雖掌握海量概念,卻不懂如何素描。當研究者教會語言模型這種筆觸序列創作法後,SketchAgent 開始繪製它從未明確訓練過的各種概念。

SketchAgent 通過獨創的「素描語言」教會 AI 模型逐筆作畫——無需依賴訓練數據,而是將草圖轉化為網格上帶編號的筆觸序列。研究人員以房屋為例演示繪製過程:每道筆觸都標註對應元素,使模型能夠舉一反三理解新概念。

作為一種凍結參數的多模態大語言模型,SketchAgent 接收三類輸入:包含素描語言規範的系統提示;帶有具體任務指令的用戶提示(如「畫一條鯊魚」);空白繪圖畫布。根據任務要求,該系統會生成代表筆觸序列的文本響應。這些筆觸數據經處理轉化為矢量圖形後呈現在畫布上。畫布可被循環利用於兩種場景:配合更新後的提示重新輸入模型,用於執行新增任務或修改草圖;供人類用戶調取以實現協作繪圖。

Vinker 團隊也驗證了 SketchAgent 究竟是與人類協同創作,還是在獨立創作。他們在協作模式下測試了該系統:人類與 AI 需合力完成特定概念的繪製。移除 AI 貢獻的筆觸後,團隊發現這些筆觸對最終成圖至關重要。例如刪除代表桅杆的人工筆觸後,整幅帆船草圖便難以辨認。

也就是說,通過研究人員設計的基於 Web 的協作式草圖繪製環境,用戶可以和 SketchAgent 輪流在共享畫布上繪製,根據給定的文本概念創作出可識別的草圖。參與者以兩種模式繪製概念:單人模式(各自獨立繪製)和協作模式(用戶和 SketchAgent 協作繪製,每次添加一筆,直到雙方都對最終效果滿意為止)。綠色表示用戶繪製的筆觸,粉色表示 SketchAgent 繪製的筆觸 。

用戶還可以通過聊天對話反覆編輯他們的草圖。研究團隊演示了該系統創作的各種概念草圖:機器人、蝴蝶、DNA雙螺旋、流程圖,甚至悉尼歌劇院等抽象圖案。未來,該工具或可發展為互動藝術遊戲,既能輔助教師和研究者圖解複雜概念,也能為用戶提供快速繪畫教學。

此外,用戶還可以使用 SketchAgent 將草圖變為動圖。

在另一個實驗中,研究者為 SketchAgent 接入不同多模態語言模型進行測評。結果發現,Claude 3.5 Sonnet 生成的矢量圖形(可轉換為高清圖像的文本文件)最具人類特質,表現優於 GPT-4o 和 Claude 3 Opus 等模型。「這一結果暗示該模型處理視覺信息的方式與衆不同。」合著者 Tamar Rott Shaham 指出。

她補充道,SketchAgent 可能成為超越文本交互的新型人機協作界面:「隨着模型理解草圖等多元模態的能力提升,用戶將獲得更直覺化、類人的表達方式,這能顯著豐富交互體驗,提升 AI 的易用性與適應性。」

儘管 SketchAgent 展現出巨大的潛力,目前仍無法完成專業素描。它能用簡筆畫呈現基礎概念,但對徽標、句子、獨角獸等複雜生物及特定人物形象的繪製仍力不從心。協作過程中,模型偶現理解偏差——例如畫出雙頭兔。Vinker 解釋,這可能源於其「思維鏈」推理機制:當模型將繪圖任務分解為多個步驟時,可能誤解人類對哪部分草圖做出貢獻。研究者考慮通過擴散模型合成數據來優化這些繪圖技能。

此外,該系統常需多輪提示才能生成擬人塗鴉。未來團隊計劃優化交互界面,簡化與多模態語言模型的協作繪圖流程。但該工具已證明:通過人機逐步協作,AI 有望以人類思維方式繪製多元概念,最終實現更契合設計意圖的成果。

1.https://yael-vinker.github.io/sketch-agent/

2.https://news.mit.edu/2025/teaching-ai-models-to-sketch-more-like-humans-0602

海量資訊、精準解讀,盡在新浪財經APP

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10