谷歌的一根“香蕉”火了!“用嘴P图”效果炸裂 国产同款能打吗?

上观新闻
Sep 06

  这几天,又一个现象级人工智能(AI)工具登场了——代号为“纳米香蕉”(Nano Banana)的图像模型,凭借实测中的惊艳效果迅速蹿红。

  社交媒体上,科技粉、设计师、内容创作者都在疯狂刷屏,连接不断发表各自的使用心得、实用教程、玩法合集,众多网友尝鲜后更直接封其为“掌管P图的神”“AI生图新王”“上手最强图像模型”……

  这根出圈的“香蕉”其实就是谷歌推出的新一代AI图像生成与编辑模型Gemini 2.5 Flash Image,不仅能融合多张图片拼接出全新画面,还能理解地理、建筑与物理结构,将二维地图转化为三维景观。谷歌方面透露,“纳米香蕉”上线一周内,已累计完成超2亿次图像编辑。

这根“香蕉”究竟有多好玩

  记者发现,网友用起“纳米香蕉”来都是脑洞大开,各种玩法层出不穷。有的喜欢毫无违和感的跨时空合影,有的乐于给自己换各种发型,也有的用地图生成三维景观……当然,最高频的还是用照片定制手办模型,无论是真人、二次元角色,还是小宠物,主打一个“万物皆可手办”,大批网友玩得不亦乐乎。

AI生成手办

  蔡小姐是个AI狂热粉,大模型一有风吹草动,她都会第一时间上手实测。连续玩了几天“纳米香蕉”后,她感到最兴奋的有两点:一是可以“用嘴P图”,不需要很复杂的提示词,直接和AI对话,它就能出色地完成P图任务。“比如,我给了它一张背景是冬天的人像照片,人的表情本来很忧郁。我告诉AI,让照片中的人笑一笑,很快它就生成了一张阳光灿烂的笑脸人像,而且画面非常自然,感觉AI模型读懂照片的能力提升了不少。”二是很多网友“疯狂打Call”的照片生成手办功能。蔡小姐尝试把一张自己穿着拉丁舞服的照片上传后,分分钟就生成手办模型图,整条裙子上各种复杂的细节还原得很逼真,三维效果也非常出色,让她立马就想拥有这款手办。

出圈背后藏着哪些AI能力

  很多人都好奇的是,这根火出圈的“香蕉”里到底藏着哪些AI能力的提升?

  如果说去年一夜刷屏的文生视频模型Sora是用人类已有的“零件”拼装出一辆汽车,那么,“纳米香蕉”就是让它变成一辆性能炸裂的超级跑车。“纳米香蕉”拥有断档领先的图像一致性。提供一张人物照片,让它生成8种表情,或者变化角度、背景,甚至转成三维图像,人物都不会变形。在连续20次编辑操作中,字符一致性准确率保持在95%以上。

  在上海人工智能研究院技术总监方帅看来,“纳米香蕉”超多惊艳表现,都来自于理解能力的提升。谷歌团队在介绍自己的产品时,也提到当模型在图像理解能力上变得更强时,其中一部分能力可以迁移到图像生成上来。

  “纳米香蕉”利用谷歌Gemini大模型的知识储备来生成和编辑图像。一年前的Sora被人诟病最多的就是在对物理规则的理解上。比如,在老奶奶吹蜡烛的视频中,蜡烛并没有随风熄灭;在玻璃杯从空中坠落的视频中,玻璃还没有碎,里面的水已流出来了。但在“纳米香蕉”中输入气球飘向仙人掌的图像,并要求它预测下一幅画面,它会显示气球炸裂,而仙人掌完好无损。

“纳米香蕉”理解物理世界规则,知道气球碰到仙人掌会炸裂。

  更为重要的是,“纳米香蕉”的交互模式高度符合人们想象中AI应用该有的样子,它能够精确解析自然语言指令中的编辑需求,支持超过100种语言的提示词,识别准确率达到92%。比如,输入一张人物图像,说“给他戴上帽子”,模型就会输出一张戴帽子的人物照。还有一个爆火的“火柴人”玩法,输入若干张照片后,用火柴人画出动作,模型就能生成逻辑自洽的动作图,如一人踢腿进攻,一人蹲下防守。

还会有什么颠覆式AI应用

  现象级应用总能引发人们对AI未来的更多想象,而由此带来的改变正悄然加速。

  在小红书上,已有网友将自己的创意脑洞转化成娃衣、饰品、手机壳、明信片等实体商品,通过软件自带的店铺完成销售闭环。这一以往只有设计师才能完成的工作,现在任何普通人都能参与,以成本15元、售价68元的艺术插画手机壳为例,月销100件即可创造不菲利润。AI也带来生产和销售模式的变化,设计师们往往会先输出海量的图片,用流量判断哪个受欢迎,再生产实体产品。

用语音让Step1X-Edit模型将改变女孩外貌。小红书AI大法师视频截图

  “‘纳米香蕉’图片转手办的玩法非常有意思,但单靠它,目前还不能真正拿来做手办。”二次元手办企业APEX-toy创始人马力告诉记者,主要原因是手办有很多细节,当下二次元手办的平均配件数量在150个左右,有的甚至超过300个,AI还无法精细还原,“不过潮玩设计可能会用得上”。

  事实上,中国“AI天团”在图像生成和编辑领域的布局步伐并不慢。阶跃星辰副总裁李璟表示,早在今年5月,阶跃星辰的开源图像编辑大模型Step1X-Edit已具备“纳米香蕉”的同类能力,在语义精准解析、身份一致性保持、高精度区域级控制上表现惊艳,“实际演示中,我们看到只需要对话就可以任意修改图片中的元素,比如改发型、改衣服颜色,将盒子里的粽子改成月饼,甚至让人物变老30岁,都不在话下”。

Step1X-Edit用语音让大模型将盒子中的月饼换成包子。 小红书AI大法师视频截图

  李璟还透露,Step1X-Edit与“纳米香蕉”技术路线的追求不谋而合。但针对视频、图像类的交互产品,其背后的多模态大模型还将有大量的技术迭代。接下来的应用核心是智能终端智能体,如用于汽车、手机以及电脑桌面的工作助手智能体。阶跃星辰正全力寻求“理解生成一体化”的架构式突破,或将带来更颠覆式的AI应用。

  先做产品还是先做架构,目前还没有答案,唯一肯定的是,每个人都看到了机会,竞争变得异常激烈。“纳米香蕉”团队坦言:其目标不仅是提升视觉质量,更要追求聪明和事实准确性;希望打造一个能理解用户深层意图的AI,甚至比人做得更好。

(文章来源:上观新闻)

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10