谷歌近期在Vertex AI平台上線新型圖像生成模型gemini-3-pro-image-preview,代號Nano Banana Pro。該模型在多項實測任務中展現出超越傳統文生圖能力的語義理解與結構化推理能力。
在視頻會議場景測試中,模型準確生成包含Sam Altman、Elon Musk、Sundar Pichai、Satya Nadella、Mark Zuckerberg及一名二次元角色共六人的Zoom風格界面截圖。人物面部特徵高度還原,真實人物背景中嵌入對應公司Logo;二次元角色保留原二維質感,並依指令轉向右上方——從觀衆視角實為左上方,表明模型理解視頻畫面鏡像特性;右側聊天面板中各人物發言內容與其身份高度契合,無拼寫錯誤。
在多語言菜單生成測試中,模型分別生成英文、日文、俄文及簡體中文四份A4豎版餐廳菜單,嚴格遵循提示詞中指定的語言種類、排版結構、標題用詞及角落插圖要求。當提示詞僅要求‘中文菜單’而未提供具體菜品文字時,模型生成的中文文本存在字形模糊、可讀性下降問題;但當全部菜品名稱與價格以中文顯式寫入prompt後,模型能基本準確呈現所有輸入文字,僅部分字體渲染略虛。
在中國文化圖像任務中,模型依據‘給下面的手看看手相’指令,清晰繪製生命線、感情線與智慧線,但將智慧線與感情線位置畫反;針對‘我想要對腎好,該按哪裏’指令,模型正確識別並標註足底湧泉穴位置,且說明其對應腎臟保健功能。
在數學解題圖像化測試中,模型對一道代數不等式題與一道幾何題分別生成含推導步驟與圖形標註的解答圖。經GPT-5驗證,兩道題的答案均正確:代數題在初中數學默認實數且非負前提下成立;幾何題答案與GPT-5獨立計算結果一致。模型在繪圖前表現出對幾何關係(如垂線落點、角度結構)與代數邏輯鏈的內部建模能力。
綜合測試顯示,該模型不僅在像素級細節(五官、排版、界面元素)上保持高穩定性,更在語義層實現人物身份識別、跨次元風格協調、語言約束執行、文化符號定位及數學結構理解。其生成過程呈現‘先推理、再繪製’特徵,初步具備對場景關係、物理規律與抽象概念的統一表徵能力,標誌着圖像生成模型正向具備世界建模雛形的方向演進。