AI硅芯片短缺深度解析：TSMC、Nvidia CPO、内存危机与未来走向

01

AI硅芯片短缺的起源与需求爆发

00:00:30 - 00:03:25

核心观点

AI建设经历了从先进封装短缺到电力限制，再到当前硅晶圆产能短缺的演进过程。token需求的爆发式增长是根本驱动力。

深度阐述

危机演进时间线

2022年底ChatGPT诞生时，AI基础设施建设经历了一系列瓶颈：

第一阶段（2023年）：先进封装产能不足，无法组装足够的芯片
第二阶段（2023-2025年）：数据中心电力和物理空间成为制约因素
当前阶段：硅晶圆产能成为最大瓶颈，电力已不再是首要约束

Token需求的爆炸式增长

SemiAnalysis团队自己每天就要消耗"数千美元"的token。更惊人的数据来自Anthropic——仅在2025年2月这一个月，他们就增加了60亿美元的年度经常性收入，主要由Claude Code驱动。

市场反应

这种增长反映在市场上：Hopper（H100）芯片虽然已经接近两代老了，但其按需定价仍在飙升。

"我们每天消耗的token价值高达数千美元。" - Ivan [00:02:05]

延伸思考

这不仅仅是几个科技巨头在玩AI游戏。从代码助手Claude Code到多步骤智能体工作流，AI正在从实验性工具转变为生产力基础设施。每一个采用AI的企业都在推高对算力的需求。

02

TSMC的产能困局与客户分配策略

00:03:25 - 00:06:24

核心观点

TSMC正面临前所未有的需求格局转变——Nvidia在2025年超越苹果成为TSMC最大客户，HPC需求增长速度远超智能手机。

深度阐述

历史性转折

过去十五年，从第一代iPhone到2022年A16芯片之前，智能手机一直是TSMC先进制程的核心驱动力。但这一格局在2025年被彻底颠覆。

震撼数据

• 2025年，Nvidia超越苹果成为TSMC最大客户
• HPC（高性能计算）需求增长速度远超智能手机
• 2024-2025年TSMC的资本支出虽然接近300亿美元，但仍不足以满足需求
• 2025年资本支出提升至520-550亿美元
• 2027年预计将达到700亿美元

但即使这样的投入也未必够用。

3纳米产能分配现状（2025年底数据）

• TSMC月产能：12万片3纳米晶圆
• 智能手机和PC占据约70-80%（7-8万片）
• AI加速器即将在2026-2027年大规模转向3纳米

这意味着什么？绝大多数即将投产的3纳米产能将流向AI加速器，留给消费电子的产能所剩无几。

TSMC的"造王者"角色

TSMC不仅是制造商，更是在决定谁能获得产能的"造王者"。他们的客户选择策略非常明确：

1. 优先考虑需求稳定的客户，而非波动性大的客户
2. 2018年加密货币的教训：当时加密货币需求旺盛，但两三个季度后就消失了，让TSMC"烧了手"
3. 苹果依然是优质客户：虽然相对重要性下降，但其需求高度可预测
• 苹果占TSMC总晶圆出货量的约10%
• 占先进制程需求的25-30%

定价策略

TSMC并非机会主义者。他们的涨价主要基于客户需求和供应紧张程度，他们称之为"价值捕获"（value capturing），而非趁火打劫。

03

内存短缺对消费电子的冲击

00:06:24 - 00:10:16

核心观点

内存短缺正在导致智能手机和PC产量下降10-15%，而大公司凭借采购能力能够获得供应，小公司则陷入困境。

深度阐述

双重短缺

这场短缺不仅是晶圆问题，内存（特别是HBM高带宽内存）同样紧缺。TSMC甚至在要求一些客户必须自己解决内存供应问题，才能获得晶圆产能。

影响分层

第一梯队（相对安全）：
• 苹果：拥有强大的采购能力和供应商杠杆
• 高通：同样具有议价能力
• iPhone级别的旗舰设备：整体影响有限

第二梯队（严重受创）：
• 联发科
• 中国低端手机厂商（小米、OPPO、Vivo的低端产品）
• 这些公司正在削减订单，部分削减幅度高达30%

市场份额转移

在短缺中，能够获得供应的公司（如苹果）实际上可以增加市场份额，因为他们有产品可卖，而竞争对手则无货可卖。

内存成本飙升

• 过去：内存占设备物料成本的17-20%
• 现在：已上升至25-30%
• 这直接压缩了低端厂商的运营利润率

"我们可能会看到智能手机和PC单位出货量下降10-15%。" - Sravan [00:06:24]

市场分化

旗舰设备相对安全，中端略有下降，但低端产品正在遭受重创。主要原因是这些公司缺乏采购量和供应链议价能力。

04

内存市场的结构性变化

00:10:16 - 00:13:25

核心观点

AI将占据2026年HBM产能的60%，2027年达到85-90%，这几乎将消费电子挤出HBM市场。

深度阐述

令人震惊的数据

根据SemiAnalysis的建模：

年份	AI占HBM产能比例
2025	9%
2026	60%
2027	85-90%

AI芯片全面转向HBM

• Nvidia Blackwell：从4NP转向使用HBM的Rubin
• AMD MI400：使用HBM
• Google TPU V7：2025年已出货，使用HBM
• Google TPU V8：将使用HBM
• Trillium等：都在2026年下半年 ramp up

所有这些芯片都在2026年下半年到2027年持续 ramp，造成了巨大的产能挤压。

新的竞争维度：采购战略

拥有优秀采购战略的公司正在获得新的竞争优势。这不仅是技术竞争，更是供应链管理能力的竞争。

HBM的技术挑战

Nvidia要求极高的引脚速度（如11GB/s），而内存供应商难以达到这些要求。这种供需错配使HBM市场持续紧张。

05

短期解决方案与工艺节点迁移

00:13:25 - 00:15:31

核心观点

短期内没有真正的解决方案。TSMC新增产能需要12-24个月才能上线，智能手机厂商被迫向2纳米迁移以释放3纳米产能。

深度阐述

残酷的现实

即使TSMC今天投资建设产能，也需要12-24个月才能投产。短期 relief 根本不存在。

唯一的"释放阀"

• 高端智能手机可以迁移到2纳米工艺
• 虽然2纳米更昂贵，但TSMC提供合理定价以鼓励迁移
• 这样可以释放3纳米产能给Nvidia等AI公司
• 中低端产品继续使用4纳米或更成熟的工艺

但这只是杯水车薪。

替代方案？

• Samsung 3纳米：仍在良率上挣扎
• Intel：同样存在问题
• 结论：短期内没有TSMC的可行替代方案

受影响的案例

一些游戏主机因为没有内存供应而被推迟发布。这显示了短缺的广泛影响。

06

内存短缺建模与行业展望

00:15:31 - 00:17:16

核心观点

将智能手机从3纳米迁移到2纳米只能释放有限产能，远远不足以满足AI需求。

深度阐述

SemiAnalysis的详细建模

场景1：重新分配5%的2026年智能手机3纳米晶圆需求
• 可多生产约10万颗Rubin GPU
• 或约30万颗TPU V7
• 结论：影响微乎其微

场景2：重新分配25%的2026年智能手机3纳米晶圆需求
• 可多生产约70万颗Rubin GPU
• 或约150万颗TPU V7
• 结论：有一定帮助，但不足以显著改变局面

价格上涨的连锁反应

内存价格上涨 → 手机价格上升 → 消费需求疲软 → 智能手机单位出货量低双位数同比下降

恶性循环

这是一个恶性循环，而唯一的"好消息"是消费电子需求被压缩，某种程度上缓解了晶圆产能的紧张——否则情况会更糟。

07

缓解信号与需求趋势

00:17:16 - 00:19:35

核心观点

HBM供应在2027年下半年之前不会有实质性缓解，Nvidia对超高速引脚的要求使供应环境更加紧张。

深度阐述

HBM的技术现实

• 当前HBM每比特消耗的晶圆产能是普通DRAM的3倍
• HBM4和4E时代，这一比例将上升到4倍
• 每颗芯片的HBM含量代代增加

Nvidia的特殊要求

Nvidia要求达到11GB/s的引脚速度，而内存供应商难以达到这一标准。这种持续存在的"需求-供应错配"使HBM环境长期紧张。

产能扩张时间表

• Samsung、SK海力士、Micron的新晶圆厂将在2027年开始投产
• 但即使到那时，由于被压缩的智能手机需求会反弹，供应仍然紧张
• 除非超大规模云厂商大幅削减资本支出（不太可能）

"短期内不会有任何缓解。" - Sravan [00:19:31]

完美风暴

这是一场完美风暴，可能需要数年时间才能缓解。

08

资本支出与行业投资展望

00:19:35 - 00:23:25

核心观点

超大规模云厂商的资本支出全速前进，ROI（投资回报率）驱动了持续的投资热潮。

深度阐述

OFC会议的反馈

超大规模云厂商没有削减资本支出的计划——"全速前进"。

ROI驱动逻辑

SemiAnalysis使用Claude Code完成任务的例子：
• 任务：更新财报或更新财务模型
• 成本：5-7美元
• 传统方式：需要初级分析师3-4小时
• 结论：ROI明显存在

Claude Code的提交和收入持续增长，证明ROI是真实的。

GPU租赁价格走势

预期与现实：

指标	预期	实际
H100价格变化（2026年）	下降30%	反而上涨15-20%
时间点	-	2024年10月开始反转

价格飙升原因：
• 需求驱动，而非成本驱动
• 内存成本仅使服务器成本增加5-10%
• 但价格涨幅远超此范围

市场分层

1. 长期合同（4-5年）：OpenAI、Anthropic等大型AI实验室，签订GB300，数百兆瓦级别
2. 中期合同（1-4年）：AI原生公司，部分AI实验室也在此市场寻找容量
3. 按需市场：最小但最灵活的部分

供应挤压

• CoreWea等公司在2024年底续签了大量H100合同
• 这些容量被AI实验室锁定，不再回流市场
• H100和L40的经济使用寿命预期被大幅延长

09

GPU租赁市场体验

00:23:25 - 00:26:58

核心观点

GPU租赁市场像"最后一班航班"的机票市场——价格快速上涨，容量一旦售罄就消失。

深度阐述

市场现状

• 流动性低、成交量小的市场
• 价格范围变得非常宽
• 容量已售罄，直到2025年8-9月才有新容量上线
• 但问题是：需求会放缓吗？

Claude使用量持续增长

• Anthropic每周都在披露新的ARR
• Claude使用量在增加
• 这意味着需求只会增长

长期合同的极端案例

一个NeoCloud公司有H100长期合同到期，他们续签了4年合同。这意味着：
• 这些GPU的使用寿命被锁定到2030年
• 总共8年的生命周期承诺
• 这改变了GPU的财务建模
• 进一步推高超大规模云厂商的资本支出

什么是"顶"的信号？

经典信号：当人们说"这次不一样"时，通常是顶部的标志。

SemiAnalysis的监测方法

1. 供应：容易观察
2. 价格：相对容易观察，与云厂商和买卖方保持沟通
3. 需求：最难观察
- 数据点：Claude Code提交、ARR等
- 价格演进 vs 理论价格（基于计算能力提升）
- GB300上线是否缓解短缺

关键测试点

当GB300容量上线时，1-4年合同市场是否放松？如果没有放松，情况只会更糟。

ROI监测：如果ROI难以实现，那将是见顶的信号。

企业渗透率：我们这些AI使用者是"矛尖"，财富500强企业中大多数甚至还没有IT权限使用AI，企业AI渗透率极低——结论：仍处于早期阶段。

10

Nvidia的CPO路线图与行业影响

00:26:58 - 00:39:26

核心观点

共封装光学(CPO)是下一代AI集群的关键技术，Nvidia在GTC和OFC大会上的宣布重塑了市场预期。

深度阐述

CPO是什么？

传统架构：芯片 → 电信号 → 前面板 → 可插拔光学器件 → 光信号

CPO架构：光学引擎直接与芯片共封装 → 缩短电信号路径 → 无需DSP进行信号调理

两种CPO形式

1. Scale-out：连接不同机架的数万甚至数十万GPU
• 目标：节省功耗和成本

2. Scale-up：连接同一域（一个机架或一组机架）内的GPU
• 速度：约10倍于scale-out
• 当前铜缆限制：在224G速度下仅约2米

为什么CPO很重要？

Scale-out的必要性：
• 需要逃脱7.2Tbps或14.4Tbps的带宽
• 使用可插拔光学器件需要6-12个端口
• 空间不足

Scale-up的紧迫性：
• 铜缆在2米范围内无法支持更高带宽
• 需要光学连接来扩展机架间连接

Nvidia的战略转变

市场预期：Kyber（600千瓦机架，144个逻辑GPU）将引领scale-up CPO

实际宣布：
• NVL 576（Rubin）：使用scale-up CPO连接8个机架
• Fineman NVL 1152：使用CPO连接8个Kyber机架

战略逻辑：为什么要花这么大代价将144个GPU压缩到一个机架内（铜缆范围内），然后不用铜缆？
• 答案：用光学连接不同机架，扩展世界规模超越144个GPU

TAM（总可寻址市场）的争议

关键问题：Fineman NVL 1152的CPO是仅用于机架之间，还是机架内部也使用？
• 如果仅机架之间：TAM较小
• 如果机架内部和之间都使用：TAM增加3倍
• Lumentum需要将超高功率激光器产能提升20-30倍
• 但基数未知，难以估计

投资者 vs 工程师：
• 投资者：密切关注每个词，试图押注CPO成为下一个大事
• 工程师：知道CPO不可避免，但不确定是在2027年还是2028年（Rubin Ultra还是Fineman）

11

OFC大会亮点与光学互联

00:39:26 - 00:40:24

核心观点

OFC（光纤通信大会）与GTC同周举行，Nvidia的CPO公告成为OFC最关注的话题。

深度阐述

OFC = Optical Fiber Conference（光纤通信大会）

会议冲突

2025年会议组织者"折磨"了所有人——GTC和OFC在同一周举行。
• Jordan参加GTC
• Dan参加OFC
• 但实际上，GTC上最重要的CPO更新使OFC与会者也在关注

OFC的关注点

• Nvidia的GTC主题演讲在OFC第一天"抢尽风头"
• 所有OFC与会者都在等待Jensen Huang的宣布

12

理解共封装光学(CPO)及其重要性

00:40:24 - 00:46:06

核心观点

CPO通过将光学引擎直接放置在芯片旁边，缩短电信号路径，节省功耗并增加带宽。

深度阐述

技术演进

当前：开关或GPU → 电信号通道 → 前面板 → 可插拔光学器件 → 光信号
CPO：光学引擎共封装到芯片/基板上 → 跳过可插拔前面板 → 跳过DSP功耗

Scale-out CPO

• 目标：节省功耗和成本
• 受益者：NeoCloud
• 原因：简化部署，Nvidia提供端到端解决方案（开关+收发器）
• 带宽能力：多平面开关可达409Tbps（传统开关约100Tbps）

Scale-up CPO

• 铜缆限制：在224G速度下约2米
• 光学优势：超越2米限制
• Google的TPU：使用可插拔光学器件连接TPU
• 带宽挑战：7.2Tbps或14.4Tbps需要6-12个可插拔光学器件，空间不足

Nvidia的路线图转变

预期：Kyber引领scale-up CPO
现实：NVL 576（Rubin）和Fineman NVL 1152成为焦点

为什么这种转变有意义？
• 花600千瓦压缩144个GPU到一个机架（铜缆范围内）
• 然后用光学连接机架，扩展世界规模超越144个GPU
• 比用铜缆连接机架内的GPU更有意义

13

Nvidia公告的行业意义

00:46:06 - 00:50:04

核心观点

投资者密切关注CPO的TAM，而工程师更关注技术实现的时间表。

深度阐述

TAM的争议

• 如果CPO用于GPU和NV开关之间的所有连接：TAM增加3倍
• 如果仅用于机架之间：TAM较小
• 估计范围极宽

产能挑战

• Lumentum需要将超高功率激光器产能提升20-30倍
• 但基数未知，难以准确估计

投资者 vs 工程师的视角

• 投资者：关注每个词，试图押注CPO成为下一个大事，股价已反映很多预期
• 工程师：知道CPO不可避免，但对时间表持实用主义态度（2027年还是2028年？）

"这次不一样"的危险

• 当人们说"这次不一样"时，通常是周期顶部的信号
• 半导体行业每3-4年一个周期，繁荣与萧条交替
• 有人在说内存不再周期性，更加结构性——但历史会证明这是否正确

14

MSA标准之争

00:50:04 - 00:56:31

核心观点

光学组件行业正在进行一场标准之争：OCI MSA vs Open CPX MSA vs XPA。

深度阐述

什么是MSA？

MSA = Multi-Source Agreement（多源协议）
• 规范组件制造的行业标准
• 创建通用生态系统
• 简化采购，避免重复

OCI MSA（Co-Packaged Optics Reliability）

签署方：Nvidia、Sierra、Broadcom、AMD、Meta、Microsoft、OpenAI

核心特点：
• 从DR光学（灰光学，每纤一个波长）转向DWDM（每纤多波长）
• 4个波长发送，4个波长接收，双向传输
• 50G NRZ调制
• 目标：实现芯片到芯片的NRZ连接（"最终Boss"）

Open CPX MSA

目标：规范物理连接（外形尺寸）
• 对调制方式（DWDM、NRZ、PAM4）保持沉默
• 意图成为连接器标准
• 使用环调制器（隐含）

XPA（eXtended Pluggable Architecture）

特点：
• 延长可插拔光学器件的传输距离
• 原生冷却
• 高密度
• 灵活性（支持相干光学）
• 支持共封装铜缆（flyover cable）
• 可能支持线性可插拔光学器件（LPO）

标准之间的关系

• Open CPX：专注于连接器/外形尺寸
• OCI MSA：专注于通道/调制方式
• 理论上它们应该互不干扰
• 但实际上存在一些隐含的技术假设冲突

"最终Boss"的差异

• Open CPX：仍需要序列化链路从芯片到连接器
• OCI MSA：目标是芯片到芯片的NRZ连接，"慢而宽"

Dan的游戏比喻：
• OCI MSA的"最终Boss"：芯片到芯片NRZ
• 这需要技术突破
• 我们还没有完全到达那里

三种标准的共存：
• 所有三种都将共存
• 它们有不同的方法
• 都是好方法
• 就像不同的游戏策略

AI硅芯片短缺 TSMC、Nvidia CPO与内存危机

核心要点

AI硅芯片短缺的起源

TSMC的"造王者"角色

内存危机重塑消费电子

GPU租赁市场的"最后一班航班"效应

CPO是下一代AI集群的关键

标准之争：OCI MSA vs Open CPX MSA vs XPA

深度洞察

AI硅芯片短缺的起源与需求爆发

TSMC的产能困局与客户分配策略

内存短缺对消费电子的冲击

内存市场的结构性变化

短期解决方案与工艺节点迁移

内存短缺建模与行业展望

缓解信号与需求趋势

资本支出与行业投资展望

GPU租赁市场体验

Nvidia的CPO路线图与行业影响

OFC大会亮点与光学互联

理解共封装光学(CPO)及其重要性

Nvidia公告的行业意义

MSA标准之争

精华收获

AI硅芯片短缺是结构性而非周期性的

TSMC的"造王者"角色

内存危机重塑消费电子

GPU租赁市场的"最后一班航班"效应

CPO是下一代AI集群的关键

标准之争：OCI MSA vs Open CPX MSA vs XPA

"这次不一样"是危险信号

AI渗透率仍然极低