半导体 · 供应链 · 2026.03.17

AI计算扩展的三大瓶颈

SemiAnalysis创始人Dylan Patel揭示算力扩张的物理极限:逻辑、内存与电力如何共同决定AI发展的天花板

阅读时间:15 分钟 来源:Dwarkesh Podcast
← 返回报告列表
四大科技巨头的资本开支达到6000亿美元,相当于50吉瓦的电力需求。这不是一个财务数字,而是一个物理学的挑战。SemiAnalysis创始人Dylan Patel在最新访谈中揭示,AI计算扩展面临三大不可回避的瓶颈——逻辑、内存与电力,它们相互交织,共同定义了未来十年AI发展的速度上限。

1算力需求的爆炸性增长

Amazon、Meta、Google、Microsoft四大科技巨头2026年的资本开支预计达到6000亿美元。如果按照当前租用算力的市场价格计算,这相当于约50吉瓦的电力需求——大约相当于50个大型核电站的装机容量,或整个纽约市的电力消耗。

显然,这是一个在物理上几乎无法实现的数字。

为什么一块H100今天比三年前更值钱?不是因为它的性能提升了,而是因为供需关系的根本性失衡。 Dylan Patel, SemiAnalysis CEO

H100的价格在过去三年不仅没有下降,反而持续走高。这不是正常的科技产品生命周期,而是反映了AI算力市场的严重供给短缺。训练一个GPT-4级别的大模型需要数万块GPU,而推理部署所需的算力更是训练阶段的数倍。

$600B
四巨头CapEx
50GW
电力需求
3年
H100涨价周期
2030
ASML瓶颈年

2瓶颈一:逻辑

TSMC产能已被提前锁定

Nvidia成功的关键之一是提前锁定了TSMC的先进制程产能。当其他公司还在犹豫时,Nvidia已经预付了巨额定金,确保自己在3nm和更先进制程上的优先供应权。

关键洞察 Google正在成为产能挤压的最大受害者。由于Nvidia提前锁定了TSMC的CoWoS封装产能,Google的TPU生产面临严重延期。这也是为什么Google不得不依赖Nvidia GPU来训练自己的下一代模型。

ASML将成为2030年的最大瓶颈

Dylan Patel预测,到2030年,ASML将成为AI算力扩展的最大约束,而不是Nvidia或TSMC。原因如下:

瓶颈排序(2030年预测)

ASML光刻机 > HBM内存 > CoWoS封装 > 先进制程 > 电力供应

为什么不能使用旧制程?

一个常见的问题是:为什么不能使用TSMC的旧制程(如7nm或10nm)来扩大产能?答案是内存带宽瓶颈。AI芯片需要极高的内存带宽来喂饱计算单元,而旧制程的互连技术无法支持HBM的集成。

此外,能效比是另一个关键因素。使用旧制程制造的AI芯片,其功耗将是5nm芯片的3-5倍,这在数据中心规模部署时是不可接受的。

3瓶颈二:内存

Dylan Patel在访谈中警告,"巨大的内存紧缩即将到来"。HBM是AI芯片的关键组件,但全球仅有三家供应商:SK海力士、三星和美光。

HBM供应格局

供应商 市场份额 HBM3E状态 关键客户
SK海力士 ~50% 已量产,技术领先 Nvidia(独家供应H200)
三星 ~40% 2024年中量产 Google TPU, AWS Trainium
美光 ~10% 追赶中 次要供应商

为什么HBM如此重要?

HBM是一种3D堆叠内存技术,通过硅通孔垂直连接多层DRAM芯片,提供极高的带宽(每堆叠超过1TB/s)同时保持较低的功耗。对于AI工作负载,内存带宽往往比计算能力更受限制

关键数据

一块H100 GPU配备了6个HBM3堆叠,总容量80GB,带宽超过3TB/s。如果没有HBM,即使GPU计算能力再强,也会因等待数据而大部分时间处于空闲状态。

HBM的生产不仅需要先进的DRAM制造能力,还需要复杂的封装技术。这进一步限制了产能扩张的速度。

4瓶颈三:电力

令人惊讶的是,Dylan Patel认为在美国扩展电力不会成为问题。这似乎与"电力是瓶颈"的说法矛盾,但关键在于电力分布的不均衡

电力供给的地理分布

美国整体电力供给充足,但输电基础设施是制约因素。数据中心需要建在离发电站较近的地方,或通过大规模电网升级来解决输电瓶颈:

"太空GPU"不会在本世纪发生

有人提议将数据中心建在太空以解决散热和电力问题。Dylan Patel认为这在本世纪内不会实现,原因包括发射成本过高、维护升级几乎不可能、数据传输延迟问题无法解决,以及抗辐射芯片的性能损失严重。

太空GPU是个好故事,但不是个好生意。在可预见的未来,我们会继续在地面上解决问题。 Dylan Patel

5供应链的权力博弈

云厂商的自研芯片战略

Google、Amazon、Microsoft都在开发自研AI芯片,试图摆脱对Nvidia的依赖。但Dylan Patel指出,这些努力面临巨大挑战:

为什么对冲基金没有做AGI交易?

Dylan Patel注意到一个有趣的现象:华尔街尚未充分定价AI算力短缺的风险。原因包括半导体供应链过于复杂,大多数分析师缺乏专业知识;对冲基金关注季度收益,而产能建设需要3-5年;台湾风险难以量化。

这为专业投资者提供了机会。理解供应链细节的人可以在市场意识到瓶颈之前建立头寸。

6中国的半导体突围

当被问及中国何时能在半导体领域超越西方时,Dylan Patel的回答是:"如果一切顺利,2030年代中期可能达到接近水平"。但现实是:

中国可以在成熟制程占据主导地位,但在先进AI芯片领域,差距实际上在扩大而非缩小。 Dylan Patel

中国的策略可能是绕过EUV,通过多层曝光技术在DUV设备上实现7nm及以下制程。但这会大幅降低良率、增加成本,且难以大规模量产。

7投资者的机会与风险

值得关注的标的

公司 投资逻辑 风险
ASML AI算力扩展的最大瓶颈,垄断地位 地缘政治风险
SK海力士 HBM市场领导者 三星追赶,周期性强
台积电 先进制程垄断者 地缘政治风险
Nvidia 软件生态护城河 估值过高

关键风险因素

8结论

AI计算扩展不是一个单一的技术问题,而是一个涉及物理学、经济学和地缘政治的复杂系统。三大瓶颈——逻辑、内存、电力——相互交织,共同决定了AI发展的速度上限。

核心结论

未来5年,AI算力扩展的最大约束是芯片制造产能;未来10年,电力和散热可能成为新的瓶颈;Nvidia的护城河不仅在于硬件,更在于提前锁定的供应链和CUDA生态系统。

对于技术从业者、投资者和政策制定者,理解这些瓶颈至关重要。AI不是魔法,它受制于物理定律和经济规律。在这个意义上,SemiAnalysis的工作——揭示供应链的真相——可能比任何技术突破都更有价值。

原始访谈
Dylan Patel on Dwarkesh Podcast https://www.dwarkesh.com/p/dylan-patel
视频版本
YouTube / Apple Podcasts / Spotify 搜索 "Dwarkesh Dylan Patel"
更多分析