接连两位大咖出走,谷歌到底出了什么BUG?

字母榜
Yesterday

不到一个礼拜,接连两位重量级员工都离开了谷歌

前有Google DeepMind工程副总裁诺姆·沙泽尔(Noam Shazeer),后有AlphaFold核心负责人约翰·江珀(John Jumper)。

讲真的,我很难不怀疑谷歌现在“出BUG”了。

从Gemini 3问世,到现在都过去大半年了,谷歌还是只有差别不大的Gemini 3.1。你再看看Anthropic这边,半年前还只是Opus 4.5,现在Fable 5都停用一个多礼拜了。

不只是模型掉队,产品也跟着掉队。如今几乎所有的AI公司都在发力AI Agent,OpenAI有Codex,Anthropic有Claude Code。

Fable 5加持下的Claude Code,现在都能自主修bug,自动循环跑测试直到全绿,还能从设计稿直接生成生产代码,最后封装成完整的软件。

而谷歌这边,只有一个拿不出手的Antigravity 2.0,不仅效果糟糕,使用体验也一言难尽,网上对这个产品只有一片骂声。

说到这里就不得不提一件事,伯克希尔从2025年就开始建仓谷歌,到了2026年第一季度,伯克希尔把谷歌的持仓又加了224%。

2026年6月1日,伯克希尔以定向增发的方式向谷歌母公司Alphabet再投了100亿美元。

难道这回巴菲特真的看走眼了?

谷歌的全栈优势怎么没了?

2025年11月18日,谷歌发布了Gemini 3。皮查伊亲自出来站台,说这是谷歌“最智能的模型”,拥有全球最顶尖的推理能力,多模态理解,还有代码生成能力。

于是在同一天,谷歌还放出了另外两样东西:一个是Google Antigravity,号称“agent-first”的开发平台;一个是Nano Banana Pro,它是谷歌此前爆火的文生图模型Nano Banana的威力加强版。

当时的谷歌有多吓人?这么说吧,在谷歌这场产品发布会结束后两个礼拜,奥特曼向OpenAI内部发出“Code Red(红色警报)”备忘录,称ChatGPT的产品体验与质量优势正在被谷歌快速追近,因此全公司暂停所有其他业务,集结全员投入到ChatGPT当中。

奥特曼担心的不只是这三个产品,而是谷歌的全栈优势。

在硬件上,谷歌有自研的TPU芯片。谷歌从2015年就开始做TPU,到今天已经到了第七代Ironwood,一颗芯片顶过去四颗的算力,液冷散热,一个pod塞进去9216颗芯片,提供42.5 ExaFlops的算力。

英伟达那种通用的GPU不同,TPU是专门为AI推理任务进行过优化的,成本低,而且性能更好。

再往上一层是DeepMind。

2023年4月,谷歌把Google Brain和DeepMind合并成了一个单位。此前,这两家虽然是同一家公司,但长期以来是两套体系、两套文化,Brain偏产品和商业化,DeepMind偏长期研究。

合并之后,哈萨比斯统一带队,杰夫·迪恩(Jeff Dean)退居首席科学家。也就是说,谷歌的“左右脑”合一了。

继续往上,还有一层很多人容易忽略的东西:入口。谷歌不是只有模型,它有Chrome、Android、YouTube、Google Maps、Gmail、Google Workspace、Google Search。

这些东西加起来,日活几十亿。全世界没有任何一家AI公司拥有这个量级的用户。它能通过入口去铺产品,再用这些成熟的产品拿到用户反馈,加快整个产品的开发迭代。

比如用户在哪一步退出了,哪种能力被反复调用,哪些生成结果被用户改掉了或者直接放弃了,哪些功能形成了留存,哪些场景出现大量报错和投诉。

就拿Nano Banana来说。

这个产品虽然体量非常小,但是它其实是通过谷歌的全栈,拥有自己一个完整飞轮。

Nano Banana刚刚在LM Arena一类的盲测环境里走红后,谷歌做的第一件事就是把它立刻上线到Gemini App、AI Studio、Gemini API当中,甚至连专门面向企业的Vertex AI也没放过。

用户不仅能通过各种产品感受Nano Banana,谷歌还能用这些产品收集反馈,这也就是为什么Nano Banana产品迭代速度那么快,碾压GPT-4o的作图能力。

那为什么到现在,谷歌的全栈优势没了呢?

文生图是一个低风险、短链路、结果立刻可见的产品。

用户输入一句话,几十秒后得到一张图,不满意就重来,满意就分享。它不需要长期记忆,也不需要调用工具权限,更不需要为一次错误承担现实后果。

但是Agent不一样。它不是“给用户一个结果”,它是要彻底驻扎进用户的工作环境,持续读取上下文、调用工具、执行操作,并对最后的结果负责。

Nano Banana的成功并不能完全复刻到Agent了。

当产品需要跨模型、权限、执行环境、企业系统和长期责任时,谷歌那套原本强大的全栈能力,开始显露出协调不起来的问题。

谷歌真正的病是组织架构太混乱

如果你去翻谷歌的开发者产品线,你会发现一个很诡异的现象。谷歌同时有好几个工具,都在帮你用AI写代码,产品功能几乎都重叠了。

Gemini CLI,一个命令行工具,可以查代码库、生成应用、自动执行复杂流程,2025年底随Gemini 3一起推出。到了2026年6月,谷歌发了个公告:Gemini CLI即将被Antigravity CLI取代。

Jules,一个异步编码Agent,Google Labs出品,定位是自动帮你修bug、写测试、提Pull Request。它不需要你盯着看,你把任务扔给它,它自己克隆仓库、写代码、开PR,干完了通知你。

Code Assist,Google Cloud旗下的企业级编程助手,装在VS Code和JetBrains里用,收费22.8到54美元一个用户一个月。Firebase Studio,浏览器里的全栈开发工作台,内置了Gemini,也能帮你生成代码。

然后是永远扶不上墙的Antigravity,前文也提到了,2026年5月I/O大会上又发了个2.0版本,分了桌面App、CLI、SDK、Managed Agents、企业层五块。

它们都在做同一件,但它们是不同团队做的,有不同的品牌名,有不同的入口,有不同的收费模式,甚至有的在互相替代。

这种情况根本就不叫产品线丰富,这叫浪费算力。

这件事的根源其实是在组织架构层面。

谷歌的AI Agent相关能力,被拆分在至少几个互不统属的组织手里。每个组织有自己的KPI,独立的汇报线。

比如Google DeepMind,它管的是模型在benchmark上的分数能不能压过GPT和Claude。DeepMind的成功是“我们做出了最强的模型”。

它根本不关心用户在Antigravity里完成一个真实项目的成功率是多少。

到了Google Labs部门,它只管这个东西酷不酷,能不能在社交媒体上引发讨论。

Google Labs的产品有CC(Gmail里的AI助理)、Project Genie(无限世界生成)、Pomelli(AI营销工具)、Opal(自然语言做小应用),以及Jules。

实验跑完了,热度过去了,团队可能去做下一个实验了,它不会对产品进行长期维护。

Google Cloud和Vertex AI管的是模型能不能通过API调用,企业能不能采购,权限和合规有没有覆盖,Agent能不能部署到生产环境。

Antigravity更惨,它是从Google DeepMind里面走出来的,现在归Google Labs维护。但是又必须接入Google Cloud的权限、部署和合规体系。

所以谁也不会对它负责,就这么摆烂。

你可能会问了,那到皮查伊这关可怎么办?

DeepMind说,我们的模型又刷榜了。Labs说,Jules在社交网络上又有10万转发了。然后Google Cloud那边说,Agent Engine又签了多少个企业客户。Gemini App说,这个月的DAU稳住了。Search说,AI Overviews用户破20亿。

大家的饭碗都保住了,却最后留给Antigravity一地鸡毛。

但没有人能回答一个最简单的问题:一个开发者,今天应该用谷歌的哪一个工具来完成他的工作?如果他现在用的是Codex或者Claude Code,谷歌准备用哪个产品把他抢过来?

评测赢了,不等于任务真的交付了

谷歌现在所有的叙事都只围绕着评分,但现在大家早就不迷信benchmark了,能交付任务的才是好模型。

模型在benchmark上分数高,比如它推理题能答对,代码能生成,图像能看懂,多轮对话能保持连贯。

这些测试通常是在受控环境下进行的。单轮或有限轮次,输入输出干净,不需要操作外部工具,不需要管理权限,不需要长时间持续运行。

失败了的表现是什么?答案不对。最坏的结果,就是重来一遍。

但是到了任务交付这块,模型的价值变了。

用户把一个真实的工作扔给AI,到最后拿到了一个能用的结果,中间的链条其实是非常长的。

什么叫“真实的工作”?是“这个项目的支付模块有个bug,请定位、修复、测试、提交PR”。它涉及多个步骤,可能要花几十分钟甚至几个小时,中间需要调用Git、终端、浏览器、文件系统、API,每一步都有失败的可能。

失败了的表现是什么?不是答案不对,而是代码改坏了、权限控不住了、流程卡死了、环境崩了、用户不知道从哪里恢复。

我举个例子。

假设一个模型在单步判断上的正确率已经有95%,看起来很强;但一个真实开发任务若需要连续完成20个关键步骤,全部不出错的概率只有0.95^20,约等于36%。

哪怕单步正确率提升到98%,20步全程顺利完成的概率也只有约67%。

所以Agent产品真正的护城河,不是把benchmark再刷高两分,而是给错误恢复、状态保存、权限确认、人工接管、回滚和结果验证做出可靠机制。

但是Antigravity都2.0了,还是没有类似且完整的机制。

你去读Gemini 3的官方博文,皮查伊亲自写的开头,后面跟着的全是benchmark对比表。

但是你现在如果去看OpenAI和Anthropic关于新模型的官方博文,里面全都是各种客户对模型的评价。

不是说benchmark没用。benchmark当然有用,它是一个尺子。但如果一个Agent产品的全部叙事都围绕benchmark展开,那就说明这个模型确实干不了活。

谷歌不可能放弃AI Agent,因为这个板块真的太赚钱了,不信你看看友商们就懂了。

2026年2月,OpenAI的Codex,独立桌面App上线后首周下载量超过100万。仅仅过了两个月,Codex周活用户就达到了400万

Claude Code就更不用说了,Anthropic在2月份的融资材料中就暗示,该产品的年化收入已经突破了20亿美元。

Antigravity 2.0发了一个多月了,现在打开它的官网,你会发现还是没有企业版的定价。

Claude Code可以通过Claude Team按人头付费,Codex可以走GPT Business或者ChatGPT Enterprise,同样是按人头收费。

到了谷歌这里,企业要是想用Antigravity 2.0,你只能走Gemini Enterprise Agent,它会赠送你一些额度让你拿手上玩玩,并不能像OpenAI和Anthropic那样,把它变成一个收费的产品。

所以我猜沙泽尔和江珀离开谷歌,大概也是因为对这家公司失望了。

欢迎在评论区留言~

如需开白请加小编微信:dongfangmark

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10