又是一年谷歌I/O开发者大会,不出所料地,主题演讲又是一场AI交响乐。去年,“AI”一词在谷歌I/O大会上被提及120次,今年依然是主角,被提及92次。
其中最受关注的,是谷歌将AI更深入地植入搜索及Chrome浏览器:
谷歌搜索将不满足于在生成结果中显示“谷歌摘要”,而是直接会在结果分类中新增“AI模式”标签,展示效果类似独立AI搜索应用。
Chrome浏览器中将加入Gemini AI助手,未来将能够“跨多个标签页工作,并代表用户浏览网站。
这是谷歌对近期争议的直接回应。一方面,谷歌搜索被唱衰。苹果高管声称谷歌搜索受到Perplexity、ChatGPT等竞品的挑战,Safari浏览器的搜索量(默认引擎是谷歌搜索)出现2022年以来首次下降。
另一方面,AI初创公司开始对浏览器虎视眈眈,Chrome也在被重新审视。Perplexity即将发布浏览器,名字都起好了。而OpenAI也有类似传言,并直言有兴趣收购Chrome。
谷歌对搜索和浏览器的进一步升级,在表明其“继续伟大”的决心。
当然,本次谷歌I/O大会主题演讲的亮点不止于此,还有安卓XR平台最新进展、3D视频聊天项目升级、文生图工具Imagen和文生视频工具Veo升级、AI电影制作应用推出、Project Astra更加主动等等。
谷歌几乎要把所有东西用AI重做一遍了。
01
谷歌搜索的“AI模式”与Chrome的Gemini
在去年的I/O大会上,谷歌推出了搜索中的“AI摘要”功能。
简而言之,就是搜索的时候,在最上部会形成一个AI生成的摘要,帮助用户进行总结(百度也有类似的功能)。AI摘要推出后,也出了一些岔子,比如老生常谈的幻觉问题。
如今,谷歌更进一步,宣布要为搜索添加“AI模式”。
“AI模式”的入口将与“全部”“图像”“咨询”等并列,且位于首位,在搜索框下部显示。
在AI模式下,用户用自然语言给出搜索请求,模型直接生成总结式的回答,以图文形式展示,并在右边给出相关网页。
AI 模式使用谷歌的前沿模型,并利用了该公司所谓的“查询扇出”技术。谷歌表示,该方法将用户的查询分解为更小的子主题,同时运行多个单独的搜索。谷歌解释说,这使得 AI 模式能够执行比传统谷歌搜索更深入的搜索。
不难看出,使用体验和任何主流AI应用的搜索模式并无二致。但这对谷歌来说是一大步,既是对Perplexity、ChatGPT等挑战者的回应,也是对自身长久以来关键词-网页结果的搜索逻辑的一种内部颠覆。
另一项重大改变,是Gemini AI助手将被接入Chrome浏览器。
在 Chrome 浏览器中,你会在右上角看到一个闪闪发光的小图标。点击它,Gemini 聊天机器人窗口就会打开——它是一个浮动的 UI,你可以移动它并调整其大小。在那里,你可以询问关于网站的问题。
最初,用户可以在浏览各个标签页时使用 Gemini 进行对话。但“今年晚些时候”,Chrome 中的 Gemini 将允许用户一次选择多个标签页,并针对所有标签页提出问题。
进一步地,谷歌未来会让Gemini可以不仅仅是为你总结和答疑,也能直接代劳帮你浏览网页。在某个演示中,在 Chrome 浏览器中打开 Gemini Live,帮助浏览一个食谱网站。用户要求 Gemini 滚动到配料部分,AI 便会快速跳转到该部分。用户请求 Gemini 帮助将所需的糖量从杯转换为克时,Gemini 也做出了响应。
没错,未来的想象空间依然是留给AI Agent的。
02
谷歌助手走开,Gemini助手上位
最近风很大的Agent,谷歌自然也不会缺席。从谷歌对Gemini助手的野望当中就可以看到端倪。
先梳理一下关系:谷歌从很早以前开始就有一个助手应用,叫谷歌助手(Google Assistant),但是如今Gemini应用正在担负起未来真正“超级助手”的期待。
其中Gemini Live是“助手”这一角色的绝佳体现。
在这个功能之下,用户不用费劲去描述自己看到的,或者发送图片等素材,让AI去分析,而是可以直接让AI“看到”屏幕上的内容或者是通过摄像头让AI“看到”周遭的事物。然后,AI就可以像一个真正的小帮手一样,为你排忧解难。
Gemini Live具有摄像头和屏幕共享功能,现在可在 Android 和 iOS 上免费供所有人使用,因此用户可以将手机对准任何物体并通过语音进行交谈。
在I/O开发者大会上,谷歌宣布将其Frontier Gemini 2.5 Pro模型扩展为“世界模型”,这意味着它将能够理解所见事物,并据谷歌称制定计划。用人工智能的术语来说,它正在变得更加具有代理性。
谷歌DeepMind首席执行官Demis Hassabis表示,这些更新是构建“通用AI助手”的“关键步骤”,可以更好地理解用户并代表他们采取行动。
未来还会有什么新进展?Gemini Live是对谷歌早先启动的项目Project Astra的延伸,一个利用视觉感知周围世界的AI代理。值得一提的是,本次I/O大会上,能看到Project Astra变得更加“主动”。
在可以利用手机摄像头“观察”你周围的物体基础上,它可以让它代替你完成任务,即使你没有明确要求它这样做。比如它可以根据它所看到的内容选择说话,比如指出你作业中的错误。
谷歌勾勒的“通用AI助手”颇为诱人,一个可以随处陪伴你的助手——无论是在你的手机里,还是在一副增强现实眼镜里——它能够在几秒钟内感知世界、回答问题并向你传递信息。
03
Gemini其实是个艺术家
创意专业人士和程序员请注意:谷歌对其创意工具的增强要么会让你的工作更轻松、更高效,要么会让你变得过时。
值得关注的有两个迭代和两个新产品。
首先说迭代。
在本次I/O大会上,谷歌对图像生成模型和视频生成模型都进行了迭代,分别推出了Imagen 4和Veo 3。
Imagen 4能够渲染织物、水滴和动物毛发等“精细细节”。该模型既能处理照片级写实风格,也能处理抽象风格,能够创建各种宽高比、分辨率高达 2K 的图像。谷歌实验室负责人 Josh Woodward 在新闻发布会上表示:“我们还投入了大量精力,并针对其生成文本和地形的方式进行了改进,因此它非常适合制作幻灯片、邀请函,或者任何其他需要融合图像和文字的内容。”
从ChatGPT内置的热门功能到Midjourney V7,市面上的AI图像工具琳琅满目,Imagen 4的竞争力是什么?除了前述特长,谷歌还指出,Imagen 4 速度很快——比 Imagen 3 还要快。而且它很快就会变得更快。在不久的将来,谷歌计划发布 Imagen 4 的一个变体,其速度将比 Imagen 3快10 倍。
Veo 3,毋庸置疑,是OpenAI Sora的竞品。这次,谷歌也在差异化优势上下了功夫。
那就是——Veo 3的视频+音频输出,可以生成带有声音的视频。例如,它可以创建带有鸟鸣音频的鸟类视频,或者创建带有交通噪音的城市街道视频,也可以在视频中融入角色对话。
这并不是一个可以自动给生成的视频“配音”的工具,但是谷歌对其好用程度很有信心。谷歌表示,Veo 3 在真实世界物理和唇形同步方面也表现出色。
再说新产品。
谷歌推出了一款全新产品Flow,定义其为“AI电影制作工具”。
Flow将Veo、Imagen和Gemini整合在一起,打造电影级的剪辑和场景。用户可以用自然语言描述他们想要的最终输出效果,Flow会立即为他们制作。
具体点来说,使用Flow,用户可以使用文本转视频提示和素材转视频提示等功能(基本上,分享几张图片,Flow可以结合提示来使用它们,帮助模型了解您想要的内容),来制作时长8秒的AI生成短片。然后,用户还可以使用Flow的场景构建工具将多个短片拼接在一起。
谷歌在官方博文中提供了几个利用Flow制作的“电影”案例,时长数分钟,其中的人物、背景、质感都相当稳定。
接下来的这个新产品就和影音无关了,谷歌推出了一个“异步编码代理”Jules,旨在让你把餐巾纸上潦草写下的粗略设计变成完整的代码或图形设计,同时向你展示它在此过程中所做的工作。
04
XR眼镜怎么能少了我谷歌?
另外一个I/O大会主题演讲中不能忽视的亮点,是安卓XR(Android XR)的最新进展。
该系统去年12月发布,专为 XR 头显、智能眼镜等扩展现实设备设计,通过与AI深度整合实现“无接触辅助”功能。
谷歌盯上XR生态并不令人意外。谷歌的安卓系统是智能手机时代最重要的底层操作系统之一,而XR设备被视为是下一代智能终端的潜力股。此前Meta就一度想要开发XR操作系统,做XR时代的“安卓”(但是没能成功)。
谷歌希望在增强现实、混合现实和虚拟现实领域实现 Android 在智能手机领域所取得的成就。
这次,谷歌宣布将与 Gentle Monster、Warby Parker 等眼镜品牌携手,推出更多具备时尚设计感的智能眼镜产品。与此同时,谷歌也将与开云眼镜等更多合作伙伴展开联动。为进一步推动技术生态,谷歌还将深化与三星的合作,联合打造专为眼镜类设备设计的软硬件参考平台,预计开发者将在今年晚些时候获得适配支持。
值得一提的是,在大会上,中国科技公司Xreal 发布了 Project Aura,这是搭载 Android XR 平台的第二款官方设备。谷歌和 Xreal 计划在 2025 年 6 月的增强现实世界博览会(AWE)上公布更多关于 Project Aura 的消息。
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.