AI生成圖片，哪家強？

AI的滲透正無遠弗屆。正如很多插畫網站，添加「AI生成」標籤已是標配。

從藝術角度看，AI生成的圖片，似乎爭議依然巨大。但不得不承認的是，在工作和學習中，AI圖片生成卻是一個提高效率的好辦法。

目前，多模態大模型領域中，支持文生圖的模型數量正在指數級增長。

為了解決大家的「選擇困難症」，這次我們選擇了6個模型進行測評。

參賽選手如下：

騰訊混元、智譜CogView-4、通義千問、即夢、可靈和Gemini 2.5 Flash Image。

其中，前段時間在LMarena上爆火的模型nano-Banana，據說吊打一切文生圖模型。

現在也已經「驗明正身」，正是8月27日Google發布的Gemini 2.5 Flash Image。

在測評前，先疊個甲：

對美術方面，實在是一竅不通。

因此，我們不談複雜的理論，也不聊晦澀的美術史。

只是以一個普通人的視角，藉助AI給出的評分標準，來評價一下到底「好不好看」。一家之言，僅供參考。

第一維度：基礎美學與真實感

考驗目標：AI的基本畫功，好不好看、真不真實。

題目：傍晚陽光下的少女

Prompt: 超寫實照片，一個有雀斑的年輕女子，面帶微笑，在黃金時刻坐在窗邊，溫暖的陽光穿過她的頭髮，電影感光線，8K，高細節。

評分標準：

測評結果：

騰訊：人物的皮膚質感過於光滑，僅有微小瑕疵。

智譜：皮膚過於光滑，雀斑形狀和分佈過於均勻和刻意，屬於明顯瑕疵。

千問：雙手比例和形態非常不自然，完全沒有寫實感，「一眼AI」，屬於明顯瑕疵。

即夢和可靈：非常出色，接近完美，不愧是「專業畫手」。

Gemini：皮膚質感過於光滑細膩，寫實感還是差了一些。

總體來說，對於人物的塑造，各個AI還是比較拿手的。

雖然有些模型生成的圖片略有瑕疵，但整體觀感不錯。

第二維度：想象力與創意

考驗目標：AI的腦洞有多大，對於現實中不存在的事物的創造能力。

題目：星雲構成的雄獅

Prompt: 一頭雄偉的獅子，由旋轉的星系和星雲雕刻而成，宇宙塵埃構成了它的鬃毛，眼睛是閃爍的恒星，背景是深邃的宇宙。

評分標準：

測評結果：

這一輪的題目看來對AI難度有點高了。

騰訊：第一眼看上去很華麗，很有氣勢，但似乎理解出現了一些偏差。這並非一個由星雲構成的生命體，而是一尊宇宙材質的宏偉雕像。

智譜：生成了一個宇宙背景下的實體獅子，完全徹底的概念性跑偏。

千問：「半神半獸」的感覺，實體獅子與星雲的混合，離要求還是有一定差距。

即夢：科幻感十足，但獅子身體仍然是實體而不是星雲構成的，觀感有一定新意。

可靈：本輪的最佳選手，視覺效果很好，實現了與星雲的融合。

Gemini：獅子的實體也是不透明的，不過神韻、氣質和細節都還不錯。

看來，對於現實中不存在的事物，AI出現概念理解錯誤的幾率會大大增加，而想象能力也是目前模型有所欠缺的地方。

可能的原因也比較多，例如訓練數據存在一定的侷限性、對物理世界存在路徑依賴或是概念融合能力的欠缺。

第三維度：指令理解與執行力

考驗目標：AI聽不聽話，能不能正確遵從指令。

題目：水果籃裏的數學題

Prompt: 一個木碗裏裝着三個紅蘋果和兩個黃香蕉，放在一張白色的桌子上。

評分標準：

測評結果：

這肯定是人類眼中最簡單的一道題，但對AI來說難度可不低。

六個模型中，只有智譜、千問和Gemini正確完成了如此「簡單」的指令。

即夢和可靈都搞錯了蘋果的數量，而混元更是漏洞百出。

根據這一輪的結果，我們也可以得到一個推斷：

AI生圖模型並非按照我們的數學概念和美術流程來工作。

或者說，它並不是按照我們最直接的思路，畫一個蘋果，再畫一個香蕉，直到數目符合要求。

指令中的3這個數字，對AI來說，並不代表一個精確的數量，而是一個需要渲染的「構圖特徵」。

而在向量空間中，「三個蘋果」和「四個蘋果」可能是非常接近的。

同時，我們也無法得知提供給上述AI的訓練集到底是什麼樣的。

但是，標籤肯定是做不到完全精準的，AI只能長時間在海量但又不完全精確的數據中學習。

AI的最終目標，是讓生成的圖片最接近於它見過的「三個蘋果」，而不是「讓生成的蘋果數量等於3」。

第四維度：風格模仿與駕馭力

考驗目標：AI模仿特定的藝術家或藝術流派的能力。

題目：水墨風的機甲

Prompt：一個巨大的中國古代機甲戰士，站立在雲霧繚繞的山谷中，中國傳統水墨山水畫風格。

評分標準：

測評結果：

又是一道有點抽象的題目。

表現最好的是Gemini，實打實繪製出了山水畫風格，大體符合要求。

千問生成的機甲看起來確實氣勢磅礴，細節處理也很到位，但很明顯，這是素描而不是水墨風格，只能說是「有形無神」。

即夢生成的圖片也並非水墨畫，而是帶有寫實感的數字繪畫，更像是個遊戲的概念設計圖。

可靈則發揮了優秀的拼接能力，在水墨風格的背景中插入了日式機甲，風格完全割裂。

混元和智譜生成的圖片則有些奇怪，水墨畫風格沒實現的同時，也沒理解「機甲戰士」這個主體，畫中人更像是個古代武士，完全偏離了題目要求。

如此看來，AI尚且不具備完全模仿某個藝術家或藝術流派的能力，能夠做到「形似神不似」就實屬不易。

第五維度：文化理解與概念表達

考驗目標：AI能否理解特定的文化以及是否能夠表達抽象的概念。

題目：中秋佳節的漢服少女

Prompt：一位美麗的年輕女孩，身穿中國傳統漢服，慶祝中秋節，她手持一個精緻的兔子燈籠，身後是明亮的滿月。

評分標準：

測評結果：

Gemini和可靈都拿下了相當高的分數，展現出了較高的文化素養。

對於漢服的概念理解比較深刻，而月亮、燈籠、園林等文化元素也都齊全。

推測其訓練數據中，中國傳統文化的相關素材標註是比較準確的。

兩家模型的算法能夠把「漢服」等關鍵詞正確關聯到視覺特徵上。

即夢和千問在美觀度和氛圍塑造上也很成功，不過漢服的結構有些模糊。

儘管這種古風畫作可能意味着AI對於服飾歷史知識的了解程度不夠深刻，但滿足「好看」這一要求仍然不在話下。

智譜生成的則是唯一採用了動漫風格的圖片，對歷史文化的復現程度顯然是太淺了。

混元生圖看似美觀，但在服飾結構上有比較明顯的錯誤，即一定程度上的文化混淆。

因此，AI在文化表現上也是存在「雙刃劍」效應的。

頂級AI具備相當可觀的文化知識，對於傳播、創作優秀傳統文化會有很大的幫助。

而部分AI還存在「刻板印象」，受到低質量數據的影響，反而會加劇大衆的文化誤解。

總評

本次測評的總分如下：

Gemini：44分

可靈：40分

即夢：39分

千問：38.5分

智譜：33.5分

騰訊：28.5分

從效果上來看，千問、即夢、可靈和Gemini的文生圖效果都是很不錯的。

尤其是前身為nano-Banana的Gemini 2.5 Flash Image，拿到了最高的分數，證明了它並非浪得虛名。

不過，我們的核心目標還是要透過現象看本質。

人們總是驚歎於AI的「創造力」，它足夠以假亂真，繪畫水平也超越了大部分人。

但事實上，AI輸出的圖片，並非源於類似人類的靈感或意圖。

AI作畫，並非像一個畫手一樣，從一張白紙開始一筆一筆畫出事物。

而是從一張充滿隨機噪聲點的「混沌畫布」開始，根據提示詞進行降噪。

也就是說，AI作圖並非基於邏輯推理，而是基於概率。

對於蘋果生成數量的錯誤，可能就是因為「構成一幅和諧的水果靜物圖」這個在訓練數據中頻繁出現的指令，其概率權重超過了「3」這個脆弱的數字符號。

對於星雲和獅子之間的掙扎，與「獅子」相關的像素模式可能是「實體」和「毛髮」，而與「星雲」相關的則是「氣體」和「半透明」。AI無法同時滿足兩個相互矛盾的概率分佈，因此降噪過程就無法成功。

對於水墨風的機甲，則可能是AI背後的數據庫在發揮作用。如果數據庫中有大量「水墨」、「機甲」等高質量的標籤，降噪過程也會被順利引導至一個高質量的概率空間。

簡單的來說，AI不是在根據指令繪畫，而是根據知識儲備，試圖通過降噪給出最可能符合指令的圖像。

至於錯誤，文生圖是一個很複雜的過程，很遺憾，我們無法確切得知問題出在哪一環節。

也因此，至少目前為止，我們並不是「創作者」，而是「概率的引導者」。

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

AI生成圖片，哪家強？

熱議股票