谷歌AI全家桶深夜爆更:Gemini 3.5新王登场,数十亿人搜索变天,AI眼镜终于来了

智东西
May 20

智东西

作者 | 程茜 陈佳

编辑 | 云鹏

智东西5月20日报道,今日凌晨,在一年一度的谷歌I/O开发者大会上,谷歌接连甩出2款新模型、谷歌搜索25年最大升级、Claude Code谷歌版开发平台Antigravity 2.0、AI眼镜等多个大招!

谷歌CEO桑达尔·皮查伊(Sundar Pichai)称,这次谷歌I/O大会的新发布,意味着其已正式迈入智能体驱动的Gemini时代。皮查伊一开场就放出了自己形象生成的AI视频,暗戳戳秀了一波自家AI能力。

1、新发2款大模型:可基于任意输入形式、生成各类模态输出内容的全能模型Gemini Omini,其首款模型Gemini Omni Flash将率先支持视频输出;谷歌最新、最强旗舰模型Gemini 3.5 Flash亮相,每秒输出token数是OpenAI、Anthropic模型的4倍

2、开发平台Google Antigravity升级:谷歌基于Gemini 3.5 Flash升级了Google Antigravity、Gemini App上的全天候个人智能体Gemini Spark、谷歌搜索,其宣布此次是谷歌搜索25年来最大更新

3、谷歌官宣AI眼镜新进展:联合三星展示了由眼镜品牌Gentle Monster和Warby Parker共同设计的两款新眼镜。谷歌纯音频AI眼镜将在今年晚些时候率先推出,带显示屏的版本将在明年推出。

4、其他大招:Gemini App中的日报智能体Daily Brief、购物中心智能体Universal Cart、 AI图像创建和编辑工具Google Pics、Google Flow智能体等。

发布会开场,皮查伊官宣了几组数据:一年时间,谷歌旗下各类业务平台每月处理token暴涨7倍,突破3200万亿token。目前每月有超过850万开发者利用谷歌的模型开发新应用和新体验,模型API目前每分钟处理大约190亿token,过去12个月有超过375名谷歌云客户各自处理了超过一万亿token

产品的用户量方面,如今谷歌有13款产品的用户超过10亿,其中5款用户超过30亿;AI Overviews现在拥有超过25亿月活跃用户,仅一年时间,谷歌搜索AI Mode的月活跃用户就已突破10亿;Gemini应用的月活跃用户已突破9亿,每日请求增长了七倍以上;Nano Banana图像生成模型已生成超过500亿张图像。

在资本支出上,谷歌今年的资本支出将达到2022年的约6倍,约为1800亿至1900亿美元(约合人民币1.2万亿至1.3万亿元),这项投资的关键部分就是谷歌TPU。谷歌还特地为TPU制作了动画短片。

本届谷歌I/O大会依旧信息量爆棚,智东西带你一文看尽。

一、全能模型Omni亮相,自然语言对话就能改视频

谷歌推出全新模型系列Gemini Omni,可依托任意输入内容生成各类内容,目前其率先支持视频输出,未来会支持图像、文本输出。

谷歌Omni家族的首款模型是Gemini Omni Flash,用户可以在Gemini应用、Google Flow和YouTube Shorts上试用。谷歌将在未来几周通过API向开发者和企业客户推广。

首先用户可以通过对话进行视频剪辑,例如重塑视频中的环境,通过微调细节或者以现有视频为蓝本,打造出用气泡做雕塑等现实情况无法实现的视频内容。

Omini还能对视频中的动作、物品进行修改。谷歌DeepMind CEO戴密斯·哈萨比斯(Demis Hassabis)在现场演示了Omini的效果,其修改提示词为:全程保留原视频所有画面与叙事,仅在4.3秒男子手指触碰镜面的瞬间触发特效:镜面以指尖为圆心,泛起液态水波纹般的涟漪;房间整体环境瞬间暗化;海量可自主变形、具备照片级真实质感的多几何造型3D棱镜,同时布满整个房间空间。

其次,Omni还能结合世界知识推演视频的后续情节走向,例如其能理解重力、流体力学等物理概念,创造出弹珠快速滚动的流畅镜头。

此外,其还能通过简短的提示,生成更为复杂的内容,例如用黏土动画解说蛋白质折叠的概念。

最后,其能将用户输入的图像、文本、视频、音频等任意参考内容,生成一个统一的视频。不过目前其只支持语音类参考素材,后续很快会上线其他类型音频输入能力。例如当用户上传角色、场景、音频素材,Omini就会生成对应的视频效果。

二、Gemini 3.5系列来了,Flash版性能拉满,Pro下月发

谷歌还推出了Gemini 3.5系列首款模型Gemini 3.5 Flash,擅长复杂且具备实际实用价值的长期任务。皮查伊透露,他们内部显示Gemini 3.5 Pro的体验效果很好,下个月会发布。

Arena AI的评测结果显示,Gemini 3.5 Flash在性能、速度、成本等方面已经全面超越Gemini 3 Flash和Gemini 3.1 Pro。

目前,Gemini 3.5 Flash已经在Gemini App、谷歌搜索的AI Mode中集成。

从基准测试来看,Gemini 3.5 Flash在多个维度上可提供媲美旗舰模型的性能,在Terminal-Bench 2.1(76.2%)、GDPval-AA(1656 Elo)和 MCP Atlas(83.6%)等具有挑战性的编码和代理基准测试上,表现优于Gemini 3.1 Pro,并在多模态理解方面领先。在每秒输出token数方面,是其他前沿模型的4倍。

谷歌一直在使用Gemini 3.5 Flash,配合开发平台Antigravity的模型,皮查伊将这一新模型称作谷歌内部游戏规则的改变,这大大加快了我们的构建速度。

Gemini 3.5 Flash结合Antigravity可以根据动态标准自动重命名文件和分类

他举例称,如果公司能混合使用Gemini 3.5 Flash和其他前沿模型,可以节省大量资金,公司每天处理约1万亿token,如果他们将80%的工作负载从其他前沿模型转移到3.5 Flash上,每年将节省超过10亿美元。

具体功能上,Gemini 3.5 Flash能快速规划、构建和迭代,帮用户完成开发新应用、维护代码库、协助准备财务文件等任务。

三、2款AI眼镜上新,不掏手机就能发短信、听导航、拍照

谷歌AI眼镜全新升级,其发布了联合眼镜品牌Gentle Monster和Warby Parker的2款新AI眼镜,还增加了获取导航、发送短信、拍照等功能,且全程无需用户掏出手机。

AI眼镜软件方面的更新包括:

询问看到的内容:用户佩戴谷歌AI眼镜时,可以询问Gemini眼前看到的景象,如查找路过餐厅的评价、快速解读交通标识等。

导航:AI眼镜会知道用户站在哪里、面向哪个方向,然后给出自然的、更符合当下情况的导航路线。Gemini还能根据用户的喜好添加停靠点或附近餐厅。

免提通话:用户无需触碰手机,就能接听管理通话、发送消息,还可让Gemini汇总未读信息,也能点播贴合当下氛围的音乐。

拍照修图:用户只需一句语音指令,即可完成拍摄,还能借助Nano Banana模型剔除画面多余杂物,或是进行快速修图。

翻译:AI眼镜支持实时语音翻译,并且发音语气、音调都贴合说话人原声,也可直接识别菜单、标牌上的文字,一键收听译文读音。

智能代办:Gemini可在后台自动处理多步骤任务,无需掏出手机,它就能帮你在外卖平台下单咖啡,用户只需最后确认订单即可。

与手机应用灵动:用户可以仅凭语音操作手机软件,例如呼叫Uber、学习外语等,并且这款AI眼镜同时适配安卓与苹果手机。

四、全新AI搜索框上线,自动帮你梳理提问思路

谷歌搜索迎来了25年来最大升级,其推出了全新的智能AI搜索框。今日,其宣布将Gemini 3.5 Flash作为谷歌搜索AI Mode的默认模型。

谷歌搜索更新重点在于搜索框,据谷歌介绍,其能依托AI智能提示帮用户梳理提问思路,功能远超普通自动补全,还支持多模态搜索,用户可将文字、图片、文件、视频乃至浏览器标签页作为检索输入。

此外,用户还能在谷歌搜索中创建和管理多个AI智能体来完成任务。信息智能体会随时浏览网络上的一切,如博客、新闻网站和帖子以及实时的金融、购物和体育信息,以监控与用户具体问题相关的变化。

例如用户在找公寓,智能体会根据用户的所有具体需求持续扫描,并在房源符合用户需求时通知用户;或者如果用户想知道喜欢的职业运动员什么时候宣布推出球鞋合作,智能体会实时浏览互联网的消息并即使通知。信息智能体将于今年夏天率先为Google AI Pro和Ultra订阅用户上线。

此外,谷歌还在扩展谷歌搜索的智能体预定功能,如用户给出周五晚上找到一个六人私人卡拉OK房间,且晚点供应食物的具体需求,智能体就会汇总最新价格和可用性,并附带链接,让用户进行选择。

谷歌搜索还能基于Antigravity定制化应用。其可以根据用户的具体问题实时构建定制的可视化工具和模拟,在底层理解用户查询内容设计布局,决定构建哪些自定义组件,然后部署代码生成交互式视觉效果。

可以看出,从搜索智能体到编程,谷歌正在通过智能体彻底改变用户使用搜索的习惯。

五、Gemini里有了全天在线的个人智能体,订阅计划新增100美元月费

智能体驱动的开发平台Antigravity升级,以管理和部署能够跨关键开发界面集成的智能体。

其推出了独立桌面应用Antigravity 2.0,该应用能作为智能体交互的中心平台,允许开发者协调多个智能体并行执行任务,它还具备动态子智能体支持并行工作流程、后台自动化的定时任务以及跨 Google AI Studio、Android和Firebase的生态系统集成。

与此同时,Antigravity能帮助开发者从0开始构建一个可用的操作系统,其谷歌IO大会提到,花了12小时,93名智能体并行工作,处理了15000多次模型请求,处理了2.6btokens,API credits消耗不到1000美元。从内核到进程和内存管理系统,antigravity编写了每一行代码。

与此同时,谷歌还更新了订阅计划,其推出100美元/月的AI Ultra计划,Google Antigravity的使用限额是Google AI Pro计划的5倍。限时内,其为新旧Google AI Ultra订阅者提供100美元的 Antigravity奖励积分,若达到计划配额上限即可生效。用户只需在Antigravity应用中领取优惠,该优惠将于2026年5月25日到期。

谷歌还为其Gemini App推出新个人AI智能体Gemini Spark。该智能体基于Gemini 3.5 Flash,采用Antigravity调度架构,即使用户关闭笔记本电脑也能在后台持续运行。谷歌今天开始向可信赖的测试用户推广Gemini Spark,计划下周将Beta版推送到美国的Google AI Ultra订阅用户中。

基于Gemini Spark,用户可以设置定期任务,如自动解析每月信用卡账单;引导该智能体查看收件箱获取孩子学校的最新动态,并将综合每日摘要发送给用户等;还能综合邮件和聊天的原始会议记录,制作文档、起草邮件。

此外,在安卓设备上,用户可以通过一个名为Android Halo的新界面空间,查看像Spark这样的智能体的实时更新和任务进度,该界面将于今年晚些时候推出。

此外,谷歌正在更新macOS的Gemini App。今年夏天,其计划将Gemini Spark带到Gemini桌面App中,以帮助用户处理涉及本地文件的任务并自动化桌面上的工作流程。

其还将为macOS的应用增加语音功能,根据用户屏幕上的上下文,Gemini可以将用户语音转化为草稿,或捕捉光标所在位置。

六、多个全新智能体亮相,还支持语音直出文档

谷歌还推出了多个AI升级。

Gemini App中上线了开箱即用的智能体Daily Brief,为用户提供个性化摘要,并综合收件箱、日历和任务中的信息找出重要事项,其还可以帮用户进行优先排序、组织并建议下一步。

Google Flow面向全体用户推出全新智能体,新智能体可结合用户指令规划并逻辑拆解各类复杂任务。用户能直接在Flow里编写创意工具代码,比如视频特效设计、手绘动画制作、文字分层排版等实用工具。

谷歌依托最新Nano Banana模型打造了全新AI图像创作编辑工具谷歌Pics。无论从零空白创作设计,还是编辑现成照片,Pics都会将画面里每一处元素视作独立对象,而非扁平化静态图片。用户可以进行创作、替换、精修局部细节。目前该工具已面向内测用户开放,今年夏季晚些时候,将逐步面向谷歌办公套件内的AI专业版及旗舰版订阅用户上线。

谷歌推出全新的购物中心Universe Cart,当用户将商品添加进去,购物车就会自动开始工作,自动帮你比价、找优惠,还会提醒到货。

还有一项功能是Docs Live,其可以帮助用户用声音直接创建并编辑新文档,全部用你的语音。Docs Live将于今年夏天向订阅者推出,语音功能也将加入Gmail和Keep版本。

谷歌深度伪造识别工具SynthID水印增加了跨产品内容凭证验证功能,这将显示内容的来源是AI还是摄像头,以及是否经过生成式AI工具编辑,其已经将内容凭证和SynthID验证扩展到谷歌搜索和浏览器中。英伟达、OpenAI、Eleven Labs将采用SynthID功能。

在科学研究方面,Gemini for Science汇集了Gemini、Deep Think和Deep Research多种AI工具,助力加速科学研究,将像Google Antigravity这样的平台与30多个主要生命科学数据库和工具进行了连接。

结语:算力、模型到终端通吃,谷歌AI生态全面爆发

过去一年,谷歌母公司Alphabet的股价上涨了140%,云业务增长速度甚至超过亚马逊微软,华尔街也将Alphabet视为少数能够从生成式AI繁荣的每一层利润中都获利的公司之一。

Plexo Capital创始管理合伙人、Anthropic早期投资者Lo Toney曾在接受外媒采访时提到,“谷歌可能是最适合大规模变现AI的公司,因为它几乎掌控了整个技术栈的每一层。”

此番谷歌I/O大会从Gemini 3.5、Gemini Omni系列全新模型迭代升级,到Gemini Spark智能体、AI智能搜索,再到AI眼镜等端侧硬件的密集新品发布证明,谷歌完成了从底层TPU算力基建、前沿大模型到搜索服务、移动终端全场景应用的全线贯通,将其自上而下的垂直整合优势展现得淋漓尽致。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10