万字拆解AI瓶颈:磷化铟紧缺已是“灾难”,下一个爆发点在“电网保卫战”

华尔街见闻
Yesterday

AI军备竞赛的瓶颈,正从GPU与HBM向更隐蔽的基础设施环节蔓延。匿名分析员@bubbleboi指出,磷化铟光学器件已进入“灾难级”短缺,DRAM/HBM三大厂全面爆满,而真正被低估的下一站,可能是AI数据中心背后的“电网保卫战”——固态变压器与功率半导体。

AI基础设施的军备竞赛正在将供应链压力从芯片本身向外蔓延,覆盖光学器件、电源半导体乃至数据中心外围的电网管理设备。在HBM短缺和算力扩张已被市场广泛定价之后,新一轮供应瓶颈正在更隐蔽的环节悄然成形。

周六,AI圈研究博主Chris Barber与知名匿名分析员@bubbleboi讨论了AI供应链瓶颈与基础设施问题,系统梳理了AI供应链各层级的紧张程度,并点名了多个尚未被市场充分认识的潜在爆发点。

在@bubbleboi的排序中,磷化铟(indium phosphide)相关的激光与光学器件已是"完全的灾难",DRAM/HBM短缺持续恶化,而电源半导体虽然目前尚不构成瓶颈,却是他最看好的"下一个爆发"方向——尤其是数据中心外围的固态变压器市场。

磷化铟:当前供应链的“灾难级”瓶颈

磷化铟是他措辞最为激烈的一个环节。"磷化铟的情况非常非常非常糟糕,"@bubbleboi表示,"很多人还没意识到有多严重。"

问题的根源在于CPO(共封装光学)技术的推进对激光器提出了更高要求——更高功率意味着更大的芯片面积,更窄的线宽和更好的噪声性能同样推高了对磷化铟晶圆的需求。与此同时,磷化铟的加工链条——从矿石到晶体、再到外延片、最终到激光器印刷——每一个环节都处于严重供不应求的状态。

这一短缺正在重塑光收发器市场的格局。

传统上,每一代收发器(如400G、800G)在初期以EML(磷化铟单片集成调制器)为主,随后逐步向硅光子(SiPho)迁移以降低成本。但这一次,1.6T收发器几乎从一开始就由硅光子主导——原因正是EML供应的严重短缺,以及制造商将产能向利润率更高的连续波(CW)激光器倾斜。

DRAM与HBM:三家寡头全线爆满

内存是@bubbleboi排名第二的供应瓶颈。

他的核心判断是:全球只有三家公司能够生产DRAM——SK Hynix三星美光——三家均已满负荷运转,短期内没有新产能上线的可能。

围绕HBM4的技术路线之争,他认为市场过度解读了其中的戏剧性。SK Hynix选择台积电12纳米制程制造HBM4基础芯片,三星使用自研SF4X逻辑节点,而美光坚持沿用内部DRAM制程,导致进度落后。

但他认为这些差异对财务影响有限:"三家都会以相当高的毛利率卖光所有产品,谁在乎呢?"他补充说,即便美光HBM4未能进入英伟达Rubin平台,也可以将产品卖给其他客户,或以高价出售普通DRAM。

他将DRAM和HBM视为同一类别,并表示相比NAND闪存,他更偏好DRAM,原因是NAND更容易出现供过于求的情况。

“电网保卫战”:AI尽头的固态变压器与功率半导体

相较于已经被市场高度关注的算力芯片内部竞争,分析师将最大的“想象空间”留给了数据中心之外的电力交付系统。

AI数据中心对电网构成了前所未有的挑战。当几万到十万张GPU在训练间隙停止计算、进行互联通信时,电网负载会发生剧烈的波动。“这对电网运营商来说是一个‘恶魔般的噩梦’(satanic nightmare)。”

访谈中披露了一个极具戏剧性的细节:

去年PyTorch团队甚至在代码中加入了一个名为“Power Plant No Blow Up(发电厂别爆炸)”的特殊标志。其作用是,当GPU不需要做数学运算时,强迫它以最大速度进行“垃圾计算”。

“假设你的芯片正常运行需要500瓦,不工作时本应降至200瓦。但现在不行,必须全程保持500瓦,因为我们不能让电网运营商生气。”负载的剧烈拉扯会反向传播并破坏电网稳定,这也是许多AI数据中心拿不到电力许可证的核心原因。

为了解决这一痛点,基于碳化硅(SiC)和氮化镓(GaN)等宽禁带材料的“固态变压器”正迎来产业拐点。传统变压器体积庞大且完全是被动器件,交付周期长达12到18个月;而固态变压器虽然昂贵,但可以通过晶体管进行动态“负载调节(Load regulation)”。 “你可以动态编程,确保两侧的电流和电压基本一致……电网运营商会更高兴,你也能拿到供电许可。”

分析师预测,这项技术将在未来36个月内起飞,相关功率半导体公司(如Wolfspeed以及部分从光伏逆变器转型的公司)虽然目前处于周期低谷甚至亏损,但在AI电力调节需求的驱动下,具备极大的重估弹性。

逻辑晶圆与先进封装:边际改善,但仍紧张

相比磷化铟和内存,@bubbleboi认为逻辑晶圆的情况在过去六个月有所改善。

台积电产能依然紧张,但三星先进逻辑产线的利用率已从接近零回升,英特尔也开始接受外部客户。

他认为先进封装(CoWoS、EMIB)的紧张程度将低于市场预期,部分原因是英特尔在马来西亚的产能正在扩张,且台积电更倾向于将洁净室空间用于毛利率更高的N3制程。

CPU短缺与另类加速器:被忽视的隐患

@bubbleboi将CPU列为"大问题",认为其短缺程度超出市场认知。

AMD面临GPU与CPU争夺台积电产能的两难困境,ARM自身没有晶圆配额,而他认为唯一有能力填补缺口的是高通——因为安卓手机需求下滑导致高通在台积电有闲置产能,可以转产数据中心CPU。但他对高通能否成功持怀疑态度,"他们已经失败了三次"。

在另类加速器领域,他对Positron和Cerebras持正面看法,但对Cerebras有明确批评:仍在使用FP16而非FP4是"愚蠢的错误",IO设计限制了KV缓存卸载能力,且封装良率可能仅在20%至40%之间。

对于Taalas,他认为其将权重硬编码进芯片层的工程设计"非常非常聪明",可将芯片设计周期从一年以上压缩至两到三个月,且无需HBM或任何先进封装,成本极低。但他对其商业前提持怀疑态度——AI模型权重更新频率极高,而Taalas要求50%至90%的权重固定不变,"我不认为AI公司会接受这个前提"。

最后,当被问及“如果你是黄仁勋,你会试图锁定什么供应链”时,分析师的一句原话为目前的AI硬件竞争做出了注脚: “他已经锁定了所有东西的产能。我本来想说光纤,但他已经去跟康宁谈交易了。我认为这个人是神(the man is a god),他已经把能锁定的全都锁定了。”

以下是采访问答文字实录(由AI协助翻译)

Chris:三到五年后,哪些替代性加速器可能会承担非常大量的训练或推理任务?

@bubbleboi:训练方面,我认为它们基本上都不行。推理方面,我非常看好Positron和Cerebras,但原因截然不同。还有谁呢?MatX。问题是我没有足够的信息。所以它可能不错,但我对他们一无所知。所以简单回答就是Positron和Cerebras。还有Taalas,我不太相信他们的前提,但这很酷,我有点想为他们宣传一下,因为如果前提成立,那将非常惊人。但我认为AI领域的人不会容忍这个前提。是的,这些是我真正喜欢的三巨头,MatX在旁边,因为我不够了解。我仍在努力让他们同意和我谈谈。

Chris:你不同意的Taalas的前提是固定权重?

@bubbleboi:他们正在做的是使用上层掩模层来烧录权重。一旦你有了权重,就无法更改。鉴于AI模型变化如此之快,比如每两周就有GPT 5.5,然后是5.6。如果你和这些公司工作的人聊聊,模型内部在 constantly 变化。模型末尾有个十六进制数。每隔几周就有更新。权重在不断变化和微调。

Taalas表示他们支持微调。我认为他们的意思是,当前芯片支持对权重进行一些修改,但远未达到你想要的那么多。他们当前的芯片是三分之二硬编码权重,三分之一只是SRAM机器。他们能支持微调的原因是那三分之一是SRAM,你可以更改或微调一部分权重,或者做LoRA之类的事情。他们基本上是在跟客户说,你的模型硬编码越多,运行得就越快,但你需要做出权衡。在理想情况下,有人可以设计一个模型,其中90%的权重是硬编码的(我随便说的数字)。它会运行得超级快。然后10%用于LoRA或更新权重。我不知道是否有大客户会接受这种程度的限制。我认为不会。但Taalas背后的工程实际上非常非常聪明。

他们使用上层掩模层。现在的芯片大概有14层,姑且说是14或15层。他们用上层三分之一中的一层来编程和硬编码权重。所以你想一下,通常芯片设计最少需要三个月,通常更久,然后需要流片,再过五六个月芯片才能回来,然后还得验证。Taalas不得不为他们自己的编译器、验证栈和芯片设计制作了一堆定制EDA工具,他们声称一天之内就能完成一个新模型。最终目标是。目前大概需要一周。所以设计需要一周,然后因为他们只更改上层,其中一层,他们可以储存晶圆。所以如果你去台积电或任何晶圆厂,这在行业里很常见,你可以说,嘿,我希望你们把X数量的晶圆保持在70%的完成度,先别完成最后一部分,因为我们正在做研发之类的。所以Taalas的周转时间比我最初预期的要快得多。新设计需要一周,然后大概两个月。这是我的估计,肯定不是六个月。所以两个月内你就能拿回芯片并运行它。他们声称他们制作了一些非常聪明的Verilog编译器工具和线程仿真工具,与标准EDA工具对接,以很好地验证一切。所以后硅验证应该没问题,因为芯片的基础设施已经验证过了,你只是改变权重。他们把原本至少一年的流程从开始到结束,理论上缩短到了两三个月,这还不错。

从模型架构的角度来看,我更像一个硬件人。我不太懂模型架构。我努力想弄明白,好吧,如何实现大部分权重固定,只改变一部分权重,比如单层中的权重之类的。然后我发现了LoRA,我问了那些真正懂AI的人,他们告诉我,哦不,LoRA不能扩展之类的。这很蠢。只有失败者才用LoRA。但如果前提确实成立,如果他们找到一个愿意使用LoRA或其他算法的客户,其中很大一部分权重是固定的,并且我们会 constantly 服务这个模型,这样才经济,那么Taalas的经济效益将是惊人的。芯片非常便宜。它不需要任何HBM或任何类型的内存。不需要任何类型的先进封装。即使是PCB,他们在芯片到芯片通信上受到延迟限制,完全没有带宽限制。所以他们使用PCIe和CXL,他们目前的主要限制是他们的芯片上没有最新版本的CXL,显然CXL 3.0提供的一些功能会对他们有实质性的帮助。但他们目前也还好。所以你将拥有惊人的、不可思议的性能(在其他任何架构中都不可能实现),而且价格极其便宜。只是有这样一个限制:很大一部分权重,可能在50%到90%之间,需要是固定的,你不能更改它们。要更改它们,你将不得不扔掉所有或大部分芯片,然后等待两到三个月,而新设计的成本大约是25万美元。

拿Taalas的CEO来说。他在一次采访中说,新版本芯片的设计成本“相当于一台H100服务器”。假设你运营一个数据中心,用Taalas芯片服务某个模型,你决定扔掉所有Taalas芯片,因为模型需要更新。所以你必须注销这笔资本支出,付给Taalas额外的30到50万。最坏的情况是,他们在两三个月内为你制造新芯片,然后你部署它们。再说一次,没有内存问题。甚至没有PCB问题。你可以使用低质量的PCB材料,因为它们只是运行非常慢的PCIe。所以这可能行得通。我只是对模型了解不够,看不出它是否真能行得通。

Chris:在堆栈的不同层面中,你认为未来几年哪些最终会面临最严重的供应限制?

@bubbleboi:是的,几乎所有。如果你在一月或二月问我,我会给出截然不同的答案,但现在 所有 都受限。

Chris:为什么市场从去年九月左右开始对此疯狂?

@bubbleboi:我不明白这点。有时候市场真的很奇怪,我跟很多对冲基金的人聊,我会说,你们很聪明,为什么现在才意识到这个?很奇怪。

Chris:宏观观点是不是大家都开始明白了,好吧,超大规模企业的资本支出将继续增加,至少绝对值上会增长?

@bubbleboi:是的,宏观情况是人们不断地来回摇摆。我给你举个有趣的例子。有人告诉我,传统能源投资者都在做空Bloom,因为他们觉得,哦,Bloom太贵了,天然气涡轮机更便宜,这是个泡沫。我说,哥们,这是关于通电时间的问题。你们完全错过了重点。

Chris:他们不了解这类客户面临的限制。

@bubbleboi:我知道。你不明白人们为什么选择这个。不是因为更便宜。每兆瓦的经济性可能差很多。但你现在就能拥有它。如果你必须将数据中心项目推迟至少六个月,……我跟更多专注于AI和半导体的对冲基金聊过,他们说,哦,我们知道其他那些做空Bloom的能源对冲基金。为什么要自寻死路做空这个?金融世界里有很多奇怪的事情。所以我无法解释。

Chris:哪些其他层面最终会成为瓶颈?

@bubbleboi:磷化铟情况非常糟糕。简直不可思议。我不知道很多人会怎么办,但任何与磷化铟相关的事情都真的、真的、真的很糟糕。

磷化铟用于激光器和光学器件,因为硅无法产生光。人们仍然不明白情况有多糟,因为CPO对激光器的噪声性能提出了更高的要求。

Chris:比如Aixtron?

@bubbleboi:哦,是的。所以他们制造用于磷化铟生产的设备。他们某种程度上不是瓶颈,嗯,他们可能是,但他们正在制造更多的机器,而像Lumentum、Coherent和Sumitomo这些公司正在购买这些机器。我做多这些。更像是Lumentum和Coherent的产能问题。衬底领域,AXT、Sumitomo、IQE等等,这些才是瓶颈。

Chris:IQE是什么?

@bubbleboi:有家英国公司,我认为他们做外延。在这个磷化铟制造链中有很多名字。目前基本上都是一场灾难。

Chris:基本上就是没有足够的磷化铟供应全球?

@bubbleboi:是的,嗯,磷化铟矿目前我认为还好。但是将磷化铟加工成晶体,然后制成晶圆,然后在晶圆上做外延,再把激光器印制到晶圆上,所有这些,完全是一场灾难。因为CPO激光器的工作方式需要更高的功率,这意味着你的芯片尺寸必须显著增大,并且它们需要更窄的线宽和更好的噪声性能,这通常意味着你必须增大芯片尺寸。

这也是为什么SiPho和Tower Semi涨上天的部分原因。传统上,收发器世界的工作方式是,从EML开始,它基本上就是一个单一的 monolithic 磷化铟芯片,包含调制器(用于上下摆动光)和连续波激光器,都在同一个磷化铟芯片上。由于物理原因,EML的性能总是优于硅光。通常,在每一代收发器(如400G或800G)推出的一两年后,人们开始转向SiPho以节省成本。你设法让SiPho的性能足够好,然后省钱,因为现在你不再购买大的EML,而是购买一个更小的连续波激光器,然后把它放进SiPho模块里进行调制。

但无论如何,这次SiPho涨上天了,因为每个人都想,等等,EML短缺了,然后那些生产EML的公司也生产CW激光器,他们正将产能重新分配给CW,因为它的利润率更高,需求也更大。所以现在CPO的需求正在扼杀已经严重供应不足的EML供应。现在,1.6T收发器是第一代SiPho几乎从一开始就占据主导地位的产品。我认为在六个月内它就占据了多数份额。我不知道完整的数据,但这完全不同。如果你看看每一代收发器以及SiPho与EML的市场份额对比,这次完全不同。这是因为磷化铟严重短缺。

接下来,我认为是内存,因为没有洁净室产能。有人问我这个问题,也不是完全愚蠢的问题:哦,三星,他们有逻辑晶圆厂和内存晶圆厂,为什么不直接把逻辑生产线重新分配给内存?因为内存晶圆厂在使用的设备、工艺和 所有 上都完全不同。所以只有三家公司能生产DRAM。它们全部被订满了。短期内不会有新产能上线。

Chris:也就是Hynix、Micron和Samsung?

@bubbleboi:是的,这三家。所以这是第二严重的瓶颈。但人们对此非常清楚。

Chris:这三家内存制造商之间差距大吗?

@bubbleboi:我个人认为这不重要。有很多戏剧性和噪音。供应如此短缺。任何东西都能以80%的毛利率卖光。谁在乎?历史上SK Hynix明显领先,三星则有点自焚。情况非常糟糕。美光大概是第二。现在关于HBM4的 die 速度有很多内幕消息,来自供应链爆料人的各种噪音。基本上对于HBM,在HBM4、3E、3之前的所有HBM,其基础 die(包含许多接口逻辑电路)都是在内部DRAM工艺节点上制造的。这之所以重要,是因为它更便宜,因为DRAM厂商用自己的晶圆厂来制造。但晶体管质量差得多。DRAM是为慢速、微小的晶体管和巨大的电容设计的,而不是为逻辑设计,所以速度受限。

所以到了HBM4, 所有人 某种程度上被迫放弃了这个策略。嗯,他们本应放弃这个策略。实际情况是SK Hynix去找了台积电,开始使用12纳米级别的工艺。这比他们用内部DRAM工艺拼凑出来的垃圾要好得多。但仍然是12纳米,不是很好。三星有自己的内部SF4X逻辑节点,不是4纳米,我最多说它能跟台积电N6打平,或者在台积电N6和N7之间。对于它需要做的事情来说相当不错。美光很蠢。他们说,不,我们要用我们自己的内部DRAM工艺。他们有点搬起石头砸自己的脚,耽误了自己。然后有很多 drama,哦不,美光进不了Nvidia Rubin。没人在乎。他们只会以天价卖出更多的普通DRAM或HBM3E。这些都不重要。这三家公司都将以相当高的价格卖光他们拥有的所有产品。质量差距现在相当接近了。以前三星的HBM3非常差,没人能用。某些人无论什么价格都不会用三星的HBM3,因为有很多功耗问题。它太耗电了。但现在它们都足够接近了,好吧,假设英伟达标准更高,拒绝了美光的HBM4,他们会把HBM4卖给其他人,或者干脆以惊人的毛利率出售普通DRAM。这不会在财务上影响美光。所以这方面幕后有很多 drama,我认为坦率地说很愚蠢。

Chris:当你说内存时,你特指DRAM还是HBM和DRAM?

@bubbleboi:是的,我说DRAM时就把HBM包含在里面了。都是同类的。我把内存分为DRAM和NAND闪存。就这两类。DRAM就是所有不是NAND闪存的内存。

Chris:你说的第三大瓶颈是逻辑晶圆厂?

@bubbleboi:你可以看到英特尔涨上天了,问题正在解决。问题是台积电就是没有足够的产能。他们太保守了。六个月前,三星在先进逻辑上基本上没有利用率,几乎为零。而英特尔只供内部用。现在有外部公司涌入,三星的利用率也变得相当高了。所以有一些弹性空间,逻辑情况在二月份看起来非常糟糕。现在好多了。虽然仍然相当糟糕,但没有恶化。内存和磷化铟在过去六个月恶化了。逻辑有所改善,但仍然相当糟糕,因为建设这些生产线需要很长时间,而且再次强调,只有三个玩家:三星、英特尔、台积电。

Chris:过去六个月还有哪些瓶颈恶化了?

@bubbleboi:不,主要是那两个类别。我不认为功率半导体情况会变糟,但我认为它们是最有趣的类别,因为电动汽车情况不佳,所以有很多闲置产能。

Chris:你能解释一下功率半导体吗?

@bubbleboi:功率半导体将电力从一种电压转换为另一种电压。你可以这样想。你有一个几千伏交流电的电网。你需要将其转换为较低的交流电,然后最终需要将其转换为直流电压。800伏直流,400伏直流,240伏交流。最终经过几个步骤后,你的高端逻辑芯片消耗大约1.2伏左右。更准确地说,每个高端逻辑芯片,那些3纳米的芯片,标准电压大约是0.75伏。还有一些高压侧电压,比如1.1伏或1.5伏。所以你必须从非常高的电压降到芯片所需的低得多的电压。因此需要多个转换阶段。有些材料叫宽带隙材料,碳化硅和氮化镓,由于物理原因,它们比硅好得多。

Chris:效率更高,所以节省能源成本,并且需要更少的冷却?

@bubbleboi:是的,没错。效率更高。而且能承受更高的电压。你试着把硅芯片放在同样的位置,它会烧掉,会自毁。

Chris:在你提到的公司中,TI、Navitas、onsemi、Infineon,你最喜欢哪个?

@bubbleboi:嗯,这周末我会发帖。快写完了。目前在氮化镓领域,TI和Navitas并列第一,Infineon远远落后第二。onsemi声称他们有很厉害的东西叫垂直氮化镓。但只是幻灯片。没有数据表,没有实际规格。只是说,我们做了个东西,它会有这些惊人的数字。好吧,当然。所以onsemi,也许他们有东西,也许没有。在碳化硅方面我还没搞清楚,还需要几天。但碳化硅方面一个有趣的玩家是,它是一个 meme 股票,但也不是 meme 股票。那就是Wolfspeed。

Chris:给我讲讲Wolfspeed。

@bubbleboi:他们 massively 过度建设了产能。他们是纯碳化硅公司,并且垂直整合。他们制造晶圆、衬底,他们制造器件, 所有 都在内部完成。

Chris:顺便问一下:对冲基金找你,只想听听你对某些事情的看法,你这样做是因为好玩,这样你也能了解他们问什么问题?

@bubbleboi:我也在学习。我了解到这些人的思维方式。因为我只是个小人物。我不影响市场。这些人才影响市场。他们也分享想法。特别是Wolfspeed,就是从一次对冲基金谈话中得知的。

Chris:Wolfspeed是从对冲基金谈话中得知的?

@bubbleboi:那是从五个来源来的。这是一只非常有趣的股票。他们是垂直整合的,100%美国本土。他们过度建设了碳化硅产能,然后被中国竞争和电动汽车 downturn 打击了。他们真的破产了,第11章破产。他们不久前才从第11章破产中走出来,我想大概是四个月前。我得查一下。但确实是很近期的事。因为你的供应商破产了, 所有人 停止从他们那里购买。所以他们的工厂利用率据称只有30%左右。非常非常低。现在他们回来了。问题是,如果市场有所好转,这只股票能涨5倍。杠杆率太高,太疯狂了。但它刚刚破产。而且它的毛利率是负的。你可以看他们最新的财报。他们的毛利率是负20%。他们的指引是,我们预计毛利率将继续为负。他们 literally 每生产一颗芯片就亏钱,因为产能利用率太低了。

现在有趣的是,也是人们一直找我的原因,是Wolfspeed推出了这个10千伏的碳化硅芯片。这些芯片 literally 就是一个晶体管,一个必须承受 insane 电压和电流水平的超级、超级强壮的晶体管。目前市场上额定电压最高的碳化硅晶体管在1700到2000伏范围内。Infineon有一个3.3千伏的器件。除了Wolfspeed,没有人有高于这个的。Wolfspeed说,哦,我们可以做一个10千伏的器件。我看着这个数据表,这东西简直是 insane。我不知道他们到底是怎么做到的。而且不是一眼就能看出,它到底是更好还是更差?因为晶体管只是开关,理想情况下,当你打开晶体管时,你希望它是一个完美的开关,没有电阻。但这从来都不是真的。总会有一些寄生电阻。所以当晶体管导通时,它就像一个微小的电阻(这是过度简化了)。我看着这个Wolfspeed器件的寄生电阻,以及损害开关速度的寄生栅极电容,并将其与竞争对手完全不同的器件,比如2000伏和3000伏的器件进行比较。寄生参数更差,但你只需要一个这样的器件,而不是三个。我不得不查看一些电路仿真来弄清楚。我认为这个10千伏的器件实际上相当不错。它将用于基础设施。在数据中心里完全没用。当我告诉这些基金的人时,他们说,哦不,它在数据中心没用。我说,兄弟,你错过了大局。固态变压器。你需要为高压交流电和数据中心之间的电网提供负载调节。

所以我更看好位于数据中心外部的电力输送,而不是数据中心内部的。我觉得每个人都在关注谁会在英伟达设计和OCP设计的电源架中胜出,物理上位于数据中心内部。这是个有吸引力的机会。但位于数据中心外部、介于数据中心和电网之间的东西,也非常有趣。事实上,可以说更有趣。所以是的,我喜欢功率半导体。我认为这将是下一个爆发并成为瓶颈的东西。它不会成为主要瓶颈,因为电动汽车基本上不行了,所以有很多闲置产能。但它是最令人兴奋的,因为情况将会发生变化。

Chris:你更看好数据中心外部的电力输送,而不是内部的?

@bubbleboi:你有没有开车经过看到变电站附近那些圆形的东西,还有那些大箱子?那些是传统的变压器。它们的工作原理是,你有一个巨大的铁芯,然后一侧绕着一堆铜线圈,另一侧也绕着一堆铜线圈。这些基本上是无源器件,你可以将比如100千伏的交流电转换为35千伏的交流电,然后将35千伏的交流电转换为7千伏的交流电,然后再将其转换为240伏、120伏的交流电进入你家。或者转换为2000千伏的交流电供给工业用户,用于长距离输电。你想要极高的电压以减少电力损耗。但要实际使用它,你必须用变压器降压。这些变压器通常是被动的、笨重的东西,它们很糟糕,因为购买它们需要很长时间。你现在下一个订单(这还是在AI热潮之前),然后12到18个月后他们才会给你,因为它就是一大块金属。制造它需要很长时间。

我认为人们不理解的是,他们在AI数据中心方面遇到了一个大问题。想想看,假设你在电力公司工作,比如PG&E。你有新客户接入你的电网,你必须管理他们,他们的负载在剧烈地上下波动。这些客户会说,哦,我们现在需要一千兆瓦。然后五分钟之后,不,实际上我们只需要八百兆瓦。这对电网运营商来说简直是恶魔般的噩梦。我不知道你有没有看到,去年推特上流传,PyTorch团队添加了一个特殊的标志,叫做"电厂别爆炸"。这是个有趣的事情。那么这个标志是做什么的?当时发生的问题是,你有很多GPU,1万个,10万个。它们在为训练做大量计算,然后其中一些要么停止计算,要么以低得多的速率计算,因为它们在进行互联、互相通信、全归约等等。这导致了电网的不稳定。电网运营商说,无论你在做什么,停下来,否则我们就要切断你的连接。这很危险。你们在 破坏 电网。所以PyTorch中这个标志的作用是,如果GPU不需要做计算,也强制它以最大速度进行计算。就让它做垃圾计算,然后把垃圾结果发到 nowhere。假设你的芯片运行在500瓦。正常情况下,如果不工作,你会希望它降到200瓦。但在这里,不,我们不希望它降到200瓦。让它一直保持在500瓦,因为我们不希望电网运营商对我们发火。电网运营商生气的原因是,如果你考虑一个电力系统,当你有这些无源组件,这些无源变压器时,任何对负载的推拉都会反向传播到电网,使其不稳定。这在过去还好,因为电网人员会管理这些事情,并且有一些稳定电网的变通方法。但现在情况不再是这样了。

我们刚谈到了普通变压器。现在有固态变压器。我不知道为什么叫固态变压器,因为以前的变压器也是固态的,它们是无源的。与其用一大块铁和一堆铜线圈,不如用碳化硅芯片构建一些电路,你可以做同样的事情,将高压交流电转换为低压交流电,甚至直接将高压交流电转换为直流电。为什么人们以前不这样做?这东西从2020年就有了。它更贵。你可以尽情抱怨传统变压器,但它们便宜,你等上12个月就能拿到货。固态变压器贵得多,但它们有一个巨大的好处。那就是你可以进行负载调节。你可以动态地编程固态变压器,以确保两侧的电流和电压大致相同。你可以改变开关频率。所以如果负载增加,你可以以更高的频率开关,或者如果负载减少,你就以更低的频率开关。

Chris:他们在固态变压器中使用功率半导体。

@bubbleboi:是的,所以这些是有源器件。它基本上就是一堆晶体管。不再是无源器件,一堆电感、铜线圈和一些二极管,而是晶体管。你通过打开和关闭晶体管来管理电力,不仅仅是转换电力,还要管理它,以便你得到一个干净的800伏,而不是800伏正负20伏之类的。或者输送1000安培,而不是1000安培正负10%。你可以调节它。这非常重要,因为这样你就不用在PyTorch中使用"电厂别爆炸"标志浪费电了,你可以降低GPU功率,你就能获得巨大的效率提升。电网运营商也会对你更满意。很多时候,许可问题,比如你试图建一个数据中心,但许可没批下来,你会想,为什么会这样?这是因为电力公司会说,你会破坏电网稳定。我们不能这样做。然后现在你可以说,好吧,我会安装一些固态变压器,这是我将如何不 破坏 你的电网的方案。然后电力公司会说,好吧,我把电卖给你,你自己接进去。所以人们通过各种创造性的方式绕过这个瓶颈。但我认为现在是时候做固态变压器并承担成本了,因为价值就在那里。是的,你为转换电力的那个箱子付了更多钱。但你获得了所有这些好处。我认为这将在明年开始加速。这更像是2027年下半年的故事。但股票的运作方式是,人们会搞明白然后提前买入。股票是 forward looking 的。所以这现在已经开始发生了,我认为在接下来的36个月里它会更加蓬勃发展。

Chris:相比于销售固态变压器的公司,你对功率半导体公司会更兴奋吗?

@bubbleboi:一般来说是的,因为至少我个人投资风格是理解工程,或者至少尝试理解,并且我能找出差异点。我在比较,我能看出谁的芯片比谁的好,谁能收取溢价。那些购买这些芯片并组装成箱子的公司,那里也确实有价值,因为涉及到控制方面。假设这个箱子有一千个非常强大的晶体管。如果没有保护电路和控制,那是极其危险的。你可能会烧毁连接到它的所有东西,产生电压尖峰。所以如何将这些功率半导体组合在一起有 careful 的设计考量。这里有两家公司。很多人一直在向我推荐这个,我之前没当回事。然后当第15个人发给我时,我说,好吧,我会读一读的。这两家公司叫SolarEdgeEnphase Energy。它们的历史是为太阳能电池板制造微型逆变器。太阳能电池板部署的问题是,太阳能电池板是直流的,但显然你家是用交流电的,所以你需要将每个太阳能电池板从直流转换为正确的交流电。然后还有很多安全方面的事情,你必须控制它,等等。所以这些公司为家庭太阳能部署做这些微型逆变器。自从家庭太阳能的税收优惠政策变差以来,这些公司彻底完蛋了。你可以看看它们的股价。2021年左右有个泡沫,然后它们跌了90%。它们现在就是垫底的股票。这些公司正在转向固态变压器。他们看到了机会。我还没时间深入研究,但我实际上认为这是靠谱的。这是一个超级愚蠢的想法。但我认为作为股票它实际上会涨。因为他们在这类器件的组装和保护电路方面非常有经验。而且这可以说比他们在太阳能领域做的更容易,因为你不是把它分布在整个屋顶上,你只是把所有东西放在一个盒子里,你可以更容易地进行过流保护。他们甚至有一些差异化的技术。Enphase有一个22纳米的控制ASIC。他们自己设计了22纳米芯片来控制所有这些微型逆变器,因为你需要进行一定程度的计算,并向所有这些模拟部件发送一系列不同的信号。这是一个分布式系统问题。基本上,你必须告诉一万个晶体管它们需要以什么速度开关,然后还要检测故障等等。所以他们有一个控制ASIC,这简化了他们的工作。这是一个真正的竞争优势。

Chris:Delta Electronics怎么样?

@bubbleboi:是的,Delta是大玩家。所以有Delta、Vertiv、Eaton等等所有这些大公司。这是他们的核心业务。这是他们已经做的事。这些股票已经涨了不少。SolarEdge和Enphase有吸引力的地方在于它们已经被遗弃了,没人关注。这些股票,如果成功,能涨5倍。你是想追逐像Vertiv那样已经涨了很多的,还是想追逐这种有点 degenerate 的?所以这很有趣。这不是个坏主意。它可能成功。你想赌一把,就把投资组合的0.5%放进去。当然,为什么不呢。

Chris:对冲基金一般都问你什么?

@bubbleboi:他们通常想听听我对某些事情的看法,因为我的投资记录是公开的,而且我的表现超过了他们所有人,不过请注意,我承担了 insane 级别的风险。这些家伙很多是市场中性的,所以我的表现跟他们比并不公平。但我确实做得相当不错。他们会问我意见之类的事情,很多时候都是技术性问题,因为我对估值一无所知。有时候有新基金问我,哦,你对估值怎么看?难道你不读我写的东西吗?但,是的,工程类问题。例如,Wolfspeed那个事。他们没人知道这个10千伏的碳化硅芯片到底好不好,以及会用在什么地方。我甚至觉得Wolfspeed自己也不知道它会怎么用,因为他们把核聚变反应堆电力输送写在了数据表和新闻稿里。我就想,你们这真是扯得太远了。很多时候,公司管理层会告诉这些金融人士一些事情,他们会问,他们说的是真话吗?我会回答是或否,或者情况复杂,你应该追问这些问题。所以主要是技术性的,但不完全是。

Chris:Cerebras,你现在怎么看?

@bubbleboi:我喜欢它。我也有一些 harsh 的批评。Andrew Feldman 显然对此非常清楚。他们用的是FP16,这是个愚蠢的错误。如果他们实现FP4,仅此一项就能获得3到4倍的容量。这是个容易实现的目标。这只是数字逻辑。他们还需要修复IO以卸载KV缓存。我不接受那种"哦,已经够好了"的论点。这是个糟糕的借口。如果你有机会把你的产品提升10倍,你就应该把它提升10倍。不要满足于平庸。最后,他们的毛利率表明他们的良率非常差。他们公开声称他们在晶圆级别的良率是100%,我相信他们,这意味着他们封装晶圆的良率是糟糕透顶的。大概在20%到40%之间。我不知道为什么这么差,但他们需要解决这个问题。我仍然对他们有批评,更像是我想成为一个积极的投资者。我正在买入他们的一些股票。我不会离开。我持看涨态度,但也很苛刻,因为它本可以好得多。Andrew Feldman 对IO问题持否认态度。我说,不,伙计,别再否认了,快修好它。你可以做得更好。就把产品做得更好。

Chris:你仍然看空 neo clouds 吗?

@bubbleboi:是的,有点。看看CoreWeave上个季度的情况。我认为基本上他们因为所有短缺(光学器件和内存)而面临更高的成本。所有的金融人士都问,你们通过合同把成本转嫁给客户了吗?CoreWeave的CEO试图回答这个问题两次,我完全不知道答案是什么。因为股价下跌了,我猜金融人士解读为,不,他们被坑了。他们签了长期合同,无法转嫁成本。

Chris:对最可能倒闭的 neo clouds 有什么看法?

@bubbleboi:那些小公司。CoreWeave足够大。Oracle足够大。Nebius可能也足够大。我不确定会不会倒闭,但最终会有问题。这里的债务水平。一旦出现 downturn,或者甚至如果加息,今年下半年可能会加息,那将对他们造成严重打击。这只是一个糟糕的生意。还有很多其他很棒的东西可以投资。就去投那些吧。我不明白为什么人们想拥有这些垃圾。

Chris:Terafab?

@bubbleboi:没有足够的信息,除了看起来他们可能在授权Intel 14A工艺。这是我对情况的猜测解读。没有信息。

Chris:CPO的推广会遇到很多问题吗?

@bubbleboi:我不认为会有问题。担心可靠性的人完全错了,并且不懂工程。问题将是磷化铟短缺,那非常非常严重。但部署方面,不,我不相信会有问题。如果你做得对,如果你做足了功课,就不会有问题。实际上它会比收发器更可靠。

Chris:对Amkor有什么看法?

@bubbleboi:没有,我不太关注封装领域的玩家。

Chris:那Ibiden或Unimicron呢?

@bubbleboi:没有,我不知道。没有看法。

Chris:Nokia还是Infinera?

@bubbleboi:哦,是的。它有潜力成为便宜得多的Ciena版本。所以如果你觉得,哇,Ciena涨了很多,估值很高,那么你可以买Nokia,他们也在尝试做同样的事情。所以我认为这是一个真正的价值投资。它是少数几个估值合理的东西之一。我目前没有持有,但我进进出出过,我需要更多时间来考虑。但,是的,我喜欢它。

Chris:你偏好的参与磷化铟的方式是什么?

@bubbleboi:主要是Lumentum。更冒险的做法是AXT,然后半导体设备方面是德国公司AIXTRON。就这三家。

Chris:你认为目前什么被炒作得最厉害?

@bubbleboi:我会说是microLED,因为我认为这是一个骗局。有大约七种microLED的替代方案,而且它们在客观上全都更好。所以,是的,我就是讨厌microLED。

Chris:GE Vernova

@bubbleboi:我持有不少。我在一个只做多的账户里,大概在170的价位买了很多股。我的平均成本价大概在170到250之间。它已经涨上天了,嗯,我想我永远不会卖这个了。所以,是的,很棒。燃气轮机。我运气好,有人很早就给我透露了消息。他们的护城河质量很高。他们是少数能制造这个的公司之一。但到了这个地步,他们已经完全被订满了,股价也涨了这么多,我不确定股价还能怎么更高。产能从哪里来,或者涨价从哪里来?我不知道。

Chris:从你的只做多投资组合中选几个:Besi、Rigaku、台积电或Fujikura,哪个最令人兴奋?

@bubbleboi:Rigaku。

Chris:那是用于先进封装的X射线?

@bubbleboi:Besi已经涨了很多,所以在现在的价位买入,我不知道。但Rigaku,传统玩家是Camtek和Onto,他们做基于光学的先进封装检测。这些X射线机器传统上用于研发目的。假设你是台积电,你正试图开发你的2纳米节点,在研发部分,你需要真正深入地观察并弄清楚发生了什么,你会买几台这种Rigaku机器,把它们用于研发,然后再也不用了。现在情况已经发展到,由于全环绕栅极晶体管、背面供电以及下一代先进封装更严格的公差,你必须使用这些X射线机器。你用光学就完蛋了。所以Rigaku正从 niche 研发转向生产。Onto知道他们完蛋了,因为他们作为战略合作伙伴收购了Rigaku 27%的股份。基本上,在Rigaku机器上运行的软件就是Onto的软件。所以很多人说,哦,这对Onto是利好。不,不是的。他们知道自己造不出机器,所以就去买了能造机器的公司四分之一的市值,然后顺便卖点软件。所以,就买Rigaku。所以,是的,那是我最喜欢的专业 niche 半导体设备。我喜欢它。

Chris:从你的交易账户中:Tower Semi、Lumentum、Intel、Bloom、Semtech,哪个最令人兴奋?

@bubbleboi:Semtech。绝对是Semtech。其他的已经涨了很多。Semtech,我仍然认为人们没有完全理解他们做什么。

Chris:我非常天真的理解是它让铜线工作得更好?

@bubbleboi:那是真的,但那只是故事的一小部分。他们制造模拟放大器和模拟均衡器。美妙之处在于,这可以用于有源铜缆,可以用于PCB,可以用于线性可插拔光学器件,可以用于传统收发器,可以用于Arista XPO的东西,可以用于近封装光学器件。这他妈的是 所有。不仅仅是铜,是 所有。太棒了。而且他们拥有最高质量的部件。基本上是他们和MACOM之间的双头垄断。Semtech的部件就是更好。我看过数据表。我用过这些东西。所以很多金融人士,他们和一些业务人员做专家电话会议,哦,是的,我们有两个供应商,等等。我说,兄弟,比例是多少?大概是90% Semtech,因为Semtech的部件好得多。所以,是的,Semtech还有很大的上涨空间。这他妈太棒了。它无处不在。不仅仅是铜。

Chris:在不同的细分领域,低、中、高,你认为HBM紧俏程度如何?

@bubbleboi:是的,高。

Chris:硅光、光学器件、CPO。

@bubbleboi:也很高。考虑到Tower的情况。

Chris:Tower发生了什么?

@bubbleboi:人们提前为2027年、2028年的产能付钱给Tower。他们的股票涨了大概15%。那是几十亿美元的市值增长。他们被订光了。

Chris:你认为光学器件中哪个子集最重要?

@bubbleboi:磷化铟部分,激光器。

Chris:先进封装。

@bubbleboi:我不认为那会成为太大的问题,因为英特尔正在大量增加产能。我想英特尔在马来西亚有很多产能。

Chris:对EMIB的看法?

@bubbleboi:是的,EMIB很好。直观上你可以认为EMIB基本上和CoWoS-L是一样的。有一些技术细节,但从设计者的角度来看是一样的。18个月前EMIB的问题是英特尔在设计规则和客户服务方面有点愚蠢,非常糟糕。然后Lip-Bu Tan来了,解雇了一堆人,现在好了。现在人们正在把东西转移到EMIB,因为,第一,台积电没有足够的CoWoS产能,第二,台积电更愿意用他们的洁净室空间来生产60-70%毛利率的N3,而不是用来做CoWoS。所以我认为先进封装的情况,至少相对于其他东西,不会像人们想的那么糟。其他东西会更糟。

Chris:ABF基板。

@bubbleboi:我知道的不够多。

Chris:HBF。

@bubbleboi:我完全不喜欢高带宽闪存。我不认为这是一个好的解决方案,因为它会有耐久性问题。所以我就是不喜欢它。我甚至不想把它看作一个瓶颈。我只是觉得这是个坏主意。如果你要为此类应用使用闪存,那么你需要让它可插拔。如果它是可插拔的,你就不需要堆叠它。你可以把它放在CXL控制器周围,然后放在服务器的某个地方。

Chris:晶圆。

@bubbleboi:磷化铟晶圆,相当糟糕。碳化硅晶圆,不。普通晶圆也不,可能还好。

Chris:PCB。

@bubbleboi:很糟糕。支持200G SerDes的高速、最高质量的材料,是的,非常糟糕。 所有人 基本上都被订光了。

Chris:那里有偏好的投资标的吗?

@bubbleboi:我交易过TTMI,进进出出,但现在它涨太多了,我不想再碰了。所以,是的,我不知道该投资哪个。还有好多台湾的玩家我不关注。这是我不碰的领域之一。

Chris:电力和变压器。

@bubbleboi:感到兴奋,是的。瓶颈,不是。有很多闲置的晶圆厂产能。但是最兴奋,是的。

Chris:兴奋是因为它在技术上对你来说很有趣?

@bubbleboi:技术上很有趣,而且是下一个会爆发的东西。Lumentum的股票在财报后没涨的一个很大原因,它跌了然后又涨了,是因为Hurlston告诉 所有人,好吧,我们未来两年的东西都卖光了,这告诉金融人士,好吧,就 upside 而言不会变得更好了。Wolfspeed有潜力涨5倍。它可能会真的疯狂。然后所有常规的功率半导体公司,Infineon、TI、onsemi、STM,它们都能翻倍。它们能翻倍。这还没有被定价进去。其他的已经被定价了。这个还没有。

Chris:网络交换机。

@bubbleboi:还好。它只是与逻辑晶圆竞争,并且需要一些CoWoS,但不多。还好。

Chris:光纤。

@bubbleboi:目前不太好。有一些问题。我不认为它像其他东西那么糟,所以姑且说是中等吧。特别是保偏光纤。在某些情况下需要的一种更昂贵的类型。

Chris:液冷。

@bubbleboi:还好。我没听说有什么问题。

Chris:组装和测试相关的东西。

@bubbleboi:那可以增加产能。正在增加产能。增加产能不具挑战性。

Chris:CPU。

@bubbleboi:大问题。是的,大问题。英特尔可以在一定程度上增加产能。这就是为什么它的股价涨了这么多。AMD,他们在一定程度上增加了产能,因为他们正在使用他们旧的基于N5的CPU设计,并重新增加那个的产能。但现在他们这样做了,如果CPU情况恶化,他们该怎么办?

如果我是AMD,我想利用我的台积电分配,卖GPU还是CPU?你必须选择。ARM没有晶圆。高通。尽管我讨厌承认,唯一能帮助解决CPU困境的是高通,因为他们在台积电有很多晶圆。

但问题是,高通是唯一有晶圆产能并且可以将其转向CPU的大玩家,因为如果Android继续断崖式下跌,他们仍然在台积电有那些晶圆的订单。他们可以告诉台积电去印制CPU设计来代替。这就是为什么高通涨了这么多,因为人们抱有希望。高通在数据中心CPU上已经失败了三次。这是他们的第三次或第四次尝试。如果他们这次还搞不定,那真的就没希望了。它只需要能用。如果能用,人们会买它,他们会从中赚很多钱,这将拯救公司于Android崩溃和苹果即将到来的诉讼。

Chris:CPU你更看好谁?

@bubbleboi:我更喜欢英特尔做CPU,因为没有什么能让我买高通。但是基金的人问过我,哦,我应该买高通做CPU吗?好吧,如果你想相信这些笨蛋,你可以买。但我不会。但是当然,如果你想投,那就投吧。我承认他们有很多产能,我承认他们有很多产能,而且他们有可能做成。

Chris:DRAM也是高瓶颈?

@bubbleboi:是的,我基本上把DRAM和HBM视为等同。

Chris:硬盘?

@bubbleboi:没有看法。我猜既然NAND短缺,硬盘可能也变得更紧张了。我对此了解不够。

Chris:数据中心厂房?

@bubbleboi:我不跟踪那些东西。没有看法。

Chris:功率半导体对你来说会是高瓶颈吗?

@bubbleboi:不,现在是低。目前还不是瓶颈,但一年后会成为瓶颈。所以这就是它最有趣的地方,因为它有上涨空间。

Chris:NAND。

@bubbleboi:我认为DRAM享有溢价。NAND也和DRAM一样短缺,但我认为NAND更危险,因为它比DRAM更容易出现供应过剩。但,是的,高瓶颈,不过我要说我更偏好DRAM而不是NAND。

Chris:是否有任何模型变化,比如长上下文、更多强化学习、世界模型,你预计会极大地改变硬件需求?

@bubbleboi:我真诚地认为所有人都在朝着更长的上下文长度发展。这其中有经济价值。人们愿意为更长的上下文长度付费。所以这会伤害所有内存,所有。这只是大概的高层次观点。我不太关注模型架构。但从经济方面看,是的,人们想要超长的上下文长度或长序列的token。

Chris:如果你是老黄,你下一步会锁定什么供应?

@bubbleboi:他已经锁定了所有东西的供应。我正想说光纤,然后他就去搞定了Corning的交易。我认为此人如神,他已经锁定了所有。我想他确实做到了。

Chris:哪一家公司你会推荐给你的父母,作为持有10年的投资?

@bubbleboi:英特尔,因为英特尔是一个疯狂的长期持有标的。还有博通、是德科技。SiTime,但也许不是在这个价位。英伟达,显然。台积电。这些都是长期的,可以闭眼买。

Chris:博通,我猜想他们所有的客户都积极希望摆脱对他们的依赖,还是这不是问题?

@bubbleboi:谷歌正在尝试。我告诉你,进展并不顺利。除了Lumentum,另一个磷化铟的大玩家实际上是博通。没多少人知道这个。博通有一个巨大的激光器部门。非常多元化的公司。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10