GPT-image-2公測效果炸場了,影響可能啱啱開始

華爾街見聞
04/22

作者:林克

4月22日,前幾天還在灰測的GPT-image-2正式公測,其實際使用效果引發了AI圈的熱議。

和之前的圖像生成的最關鍵變化是:字更清楚了、海報更像設計稿了、UI截圖終於能用。這也讓圖像生成模型開始被當成生產工具來討論了。

先看看生成效果:

顆粒度更高的效果背後,其實一條技術路徑在拐彎。

過去幾年主流方法來自擴散模型diffusion的思路。它的出發點很樸素:如果一張清晰圖片可以一步步加噪聲變成雪花,那麼反過來,從雪花一步步去噪,就有機會還原出一張圖。

於是模型被訓練去做一件事,在不同噪聲階段判斷「下一步應該往哪兒收斂」。

這套方法在視覺上很成功。它擅長處理連續變化的東西,比如光影、紋理、人物細節。但它有一個幾乎繞不過去的結構性限制:生成幾乎是「整體發生」的,沒有順序概念。

從噪聲到圖像的過程中,所有元素一起浮現出來。人物、背景、裝飾、文字,都在同一個收斂軌道里被「塗抹」出來。模型沒有「先寫第一個字、再寫第二個字」的能力,因為在它的世界裏,並不存在「字符」這種離散單位。

這就是早期模型為什麼在文字上集體失靈。它看到「HELLO」,學到的是幾種常見的筆畫組合;生成時,會在某個區域給出一塊「像文字的紋理」。至於字母順序、拼寫規則、句子長度,這些約束不在它的表達體系裏。

很多團隊試圖用更多數據、更高分辨率去彌補,但效果有限,因為在連續系統去模擬離散結構,總會在關鍵位置出錯。

GPT-image-2這一代模型的變化,恰好發生在這個斷點上。

它首先把圖像換了一種表示方式。通過視覺分詞器tokenizer,圖像被拆成一系列離散單元,類似文本里的token。這樣一來,圖像就變成可以逐步生成的序列。

一旦進入序列空間,語言模型那套成熟的方法就可以直接接入。生成過程就有了順序,可以「從前到後寫出來」。順序、長度、上下文約束,都可以在這個過程中被顯式控制。

更關鍵的一步,是引入了接近「agent」的訓練思路。

Agent特點是先理解任務,再形成計劃,最後執行。GPT-image-2的生成鏈路裏,語言模型承擔了類似「規劃器」的角色。它會根據輸入,把需求拆解成結構,例如哪裏是標題,寫什麼內容,大致佔據什麼位置,是否需要多行排版。這個過程對用戶不可見,但在模型內部形成了一個隱式的佈局草圖。

接下來,視覺部分在這個草圖約束下去完成渲染。文字成為一個被提前定義好的目標。字符的順序和內容由語言模型決定,視覺模型負責把它們以合適的樣式呈現出來。

從工程角度看,這是一條「規劃—執行」鏈路被內嵌進模型本身,像agent一樣有步驟、有結構、有中間決策。

這種結構對文字的影響是立竿見影的。因為文字本質就是一種強約束的序列任務,而語言模型正好擅長處理序列。當兩者對齊之後,「寫對字」不再依賴運氣,而成為一個可以被穩定優化的目標。

這也是為什麼GPT-image-2在海報、UI、電商圖這些場景表現突出。這些場景的難點一直在結構和約束,而不是純視覺。只要結構被提前鎖定,後續渲染的自由度反而更容易控制。

國內模型目前大多處在兩條路徑的交界處。

豆包圖像已經開始引入語言模型參與生成決策,在中文短文本和簡單排版上有明顯改善。這說明「規劃層」正在形成,但在長文本和複雜佈局上仍有波動,意味着離散表示和視覺渲染之間的對齊還不夠穩。

快手的Kolors在視覺表現上非常突出,風格和質感接近行業第一梯隊,但文字更多還是在視覺階段被補償,缺乏前置約束,一旦文本變長就容易失控。

阿里千問和百度的優勢在於數據和場景,尤其電商與搜索生態,具備構建大規模結構化數據的條件。但目前圖像生成仍然延續原有路徑,語言模型尚未成為生成鏈路的核心控制者。

從方法論上看,差距集中在三點:圖像是否被離散化為可序列處理的單位,語言模型是否進入生成主鏈路,以及是否建立了帶佈局與文本標註的數據體系。這三者一旦打通,文字問題基本會隨之消失。

這條路徑和文本模型的發展方向也在逐漸重合。像Claude之所以被很多開發者用於實際工作,核心原因是因為它在執行復雜任務時更穩定。

長上下文處理、結構化輸出、步驟完整,這些能力讓它更像一個可以交付結果的系統。GPT系列從對話走向工具的過程,本質也是在強化這種「完成任務」的能力。

圖像生成正在經歷類似的階段。從「生成一張好看的圖」,走向「完成一個帶視覺約束的任務」。

當語言模型、離散表示和類似agent的規劃機制疊加在一起,圖像就不再只是視覺結果,而成為表達和執行的一種新載體。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10