🔥 Search Hot Tweets

Discover fast-rising X posts through keyword search and intelligent analysis. Review high-potential tweets manually, or use Automated X Engagement in hot tweets mode so SoPilot can open tweets, generate quality comments, and save engagement history during the golden window.

We recommend installing the SoPilot plugin so comments or quote-post content can be generated automatically when opening X posts.

Start Hot Tweets Automation

Discord RSS

62.4Kfo

fin@fi56622380· 2h ago发布

AI半导体终局推演2026(II) 当半导体结构性演进到AI推理主线，内存和存储成为了最大瓶颈，市场对内存和存储最大的怀疑就是： HBM/DRAM/SSD会不会摆脱传统周期性？依赖HBM指数增长的GPU架构路线进化路线，会不会停止？什么时候停止？长鑫扩产的影响有多大？会不会把这个市场重新带入周期泥潭？本篇尝试去建立一个框架来梳理这几个问题 —---------—--------- 万物皆周期，而内存的周期性又特别强，最大的来源在于扩产周期过长，无法快速扩产和需求短缺时期错配摆脱传统周期性几种可能的方式 1. 定制化：产品不可互换，产能不能随便转移，需要签长约。 2. 结构性的指数级需求增长：需求曲线本身很陡峭，而且供给一直追不上。 3. 技术迭代快速升级：每一代产品都快速淘汰上一代。满足任何一条，就能部分摆脱传统周期；满足两到三条，就能摆脱大部分传统周期根据这个框架， HBM在三条里，大概占了两条半 1. 定制化，需要签长约（较弱，算半条） HBM 确实有定制化和Nvidia codesign的成分，但并不是很强。真正定制的部分只在封装和 base die，上面那十几层 DRAM die 仍然是完全 JEDEC 标准化的。比如当 Samsung 的 HBM3E 在 NVIDIA 的 qualification 上没过、份额从大约 60% 一路跌到 20% 的时候，它并没有把这批产能砸在手里报废，而是转手就供给了 Google 的 TPU、AMD. 物理上，给 NVIDIA 的 HBM3E 和给 AMD 的 HBM3E，是同一个东西。所以产能仍然是部分可以自由转移的。 HBM4之后的定制化更多一些，包括在 base die 上集成定制逻辑和/或缓存。更复杂的方式是将 HBM4E 内存控制器和定制 die-to-die 接口直接放入逻辑 base die SemiAnalysis 提到 OpenAI、NVIDIA 和 AMD 各自都在做定制 HBM 的工作，但这指的是 base die 的定制，上面的 DRAM 层仍然是标准的。部分定制化的特性，HBM主要在封装上需要合作，这也导致了客户必须签长约，但产能也确实可以转移，所以HBM 能勉强算半条。 2. 结构性的指数需求增长（满足）最直观的原因，就是Nvidia token factory token throughput的硬件升级需求，导致了HBM带宽的升级换代极快，以及HBM size需求的指数增长这一条其实就是上一篇AI半导体终局推演2026(I)的结论： token throughput = HBM size × HBM 带宽，每一代翻倍。 HBM size per GPU大概每年增长40%以上这条需求曲线的陡峭程度，是DRAM供给端 14% 的 wafer 增长，乘以 9% 的 density 提升，很难追上的在硬件领域，因为attn阶段KV cahce的极高带宽和极高memory size的要求，也导致了HBM独特的地位。即便是HBM涨价三五倍，把钱花在HBM上带来的边际token throughput提升，仍然比花在其他地方要划算的多。其他几个Memory路线，SRAM，HBF，CXL，PIM，目前都无法在HBM的主力赛道kv cache/attention上正面竞争，起码未来5年甚至更长时间，不太可能找到替代路线 3. 技术迭代快速升级（满足） DDR3时代过了15年，仍然只是DDR5时代，而HBM的升级换代的速度基本上是两年一代，比传统DDR要快很多很多，而且近来还有加速的趋势，HBM size x HBM BW每一代翻倍，目前是完全符合这个规律的每两年一代HBM升级，NV GPU速度基本是指数型上升：2TB/s ->3.5TB/s->4.8TB/s ->8TB/s->22TB/s，而且HBM的速度和推理token throughput是完全线性正比的，上一代HBM的边际使用成本会不划算，大家都有动机去尽量用最新的产品，虽然更贵，但是带来的收益(token throughput)是更多的 Token factory时代的逻辑是，技术升级（HBM带宽）的越多，赚的越多这个速度差，造成了一个和 CPU 类似的局面：旧产品快速贬值，于是囤货的价值在变低，比如说，HBM3的价值贬值的非常快，今天基本上主流产品不会用了所以HBM 厂商的理性选择，从拼当前的产能去占市场（quantity competition），变成了在稳定性和HBM速度上拼技术，拼下一代在 NVIDIA 平台上的 qualification 份额（quality competition），从而避免了在传统周期的下行波段，大家都不愿减产掉市场份额的囚徒困境。 —--------------—-------------- HBM和传统DRAM比较，三个条件里满足了两个半，那么HBM能摆脱传统周期性吗？内存周期性的来源，主流叙事是，DRAM 有Commodity属性（无差异化 → 价格战 →库存可囤积），所以有周期性。而Commodity属性本身并不产生周期，它只是一个振幅放大器特别是DRAM领域里，曾经产��过囚徒困境，在下行周期三星曾经扩产抢市场份额，谁先减产谁吃亏，导致谁也不敢轻易减产，最后大家都亏损惨烈实际上周期性的主要结构性来源是供给周期太长，很容易和需求周期错位。建一座 fab 要 3 年，投资上百亿美元，一旦决策就不可逆，而需求增长会有不稳定性，每次出现新范式增长，比如云服务，移动互联网手机，疫情线上需求，会有爆发式增长，而过了两年增长会放缓，供给高于需求，降价过猛，就变成了亏钱周期万物皆周期，HBM这一条同样是无法避免，但只要token需求仍然是指数型增长，结构性的指数增长会减弱周期性，因为需求可预测度更好，而且一旦降价，客户就有增大HBM size的需求（从而增大token throughput），加上HBM有一点定制化要求导致都是长约，从而从周期性转化成成长周期性，而且这一轮周期会特别长周期性：上行周期赚的多，下行周期亏的多成长周期性：上行周期赚的多，下行周期赚的少另外，HBM/DRAM在这三条摆脱传统周期的条件的基础上，还有一条重要优势： 4. 因为DRAM密度增长scaling越来越慢，以及HBM升级换代导致DRAM堆叠倍数的增加，供给端的扩产难度持续增加 2000年附近，DRAM每片wafer上DRAM bit密度每年增长大概45%，也就是说，就算晶圆wafer数量不扩产，每年的供给端DRAM bit仍然可以增长45% 十年前，DRAM bit每年密度增长降到了20%，而现在，DRAM bit每年密度增长降到了9%。以前DRAM扩产甚至不怎么需要新建厂房就能得到每年20~30%的bit volume上升，现在DRAM要扩产，更多的是靠wafer数量的增长，也就是新建厂房和clean room。另外一个HBM快速扩产难度在于，HBM3e大概需要3倍的DRAM wafer晶圆，而HBM4由于堆叠密度的增加，大概需要4倍的DRAM wafer晶圆数量，相当于HBM bit相对于DRAM bit一直变得更难制造，单位DRAM wafer数量制造的HBM bit越来越少，相当于在通缩 ---------------------------------- HBM未来有一天，会不会从成长周期性，变回传统周期性？最重要的因素是结构性指数增长，那么 AI推理时代，这个依赖HBM指数增长的GPU架构路线进化路线，会不会停止？什么时候停止？ token throughput = HBM size × HBM 带宽，这个HBM指数增长的第一性原理里的HBM size的增长原因正是KV cache的增长。KVCache的特性以及Attention的特性,也是非常契合HBM的。甚至让HBM领先于其他的技术路线, 能够最大化地让KVCache和Attention 阶段的利用率。换言之，如果KV cache从架构上不存在了，那么HBM size指数增长逻辑也会受到挑战所以这个问题的本质其实是，这一轮以 Transformer 为代表的 attention 机制、以及由它衍生的 KV cache 机制，会不会消失？退潮之后会不会被取代？从历史规律来看：每一次AI模型架构革命，真正被保留下来的，是那些在数学上具有某种普适性的 primitive 操作举个例子：FFN（前馈网络，也就是模型里大量的 MLP 层）是 2012 年深度学习时代的产物，但它一路活到了今天的大语言模型里，并且仍然占据着模型相当大的参数量。它为什么能活下来？因为这也是一种universal approximation theorem（通用逼近定理）：任何足够宽的 MLP 都能逼近任意连续函数 Attention 大概率也是这样一个会被保留的 primitive。因为它解决的是一个同样基础的问题：序列sequence 中任意两个位置之间的 dynamic routing（动态路由），让一个序列里任意两个位置都能按需建立联系。这个能力一旦被验证有效，就很难被丢弃所以即便未来架构从纯 Transformer 向混合架构演进，或者向世界模型演进，但attention 层依然会存在，KV cache（或者它经过 latent compression 之后的等价物）依然需要，HBM依然会作为推理核心之一，这个依赖HBM指数增长的GPU KV cache架构路线进化路线，不会停止 —---------------—--------------- 那么DRAM呢？在未来有没有摆脱传统周期性的可能？ HBM摆脱周期性在市场上有一定共识，但DRAM摆脱周期性，市场目前基本没有共识还是回到刚才的框架，三个摆脱传统周期的条件里，DRAM是没有定制化的，所以就只能看技术迭代速度，最关键的还是要看，有没有结构性的指数增长，答案是有的在 AI token factory 这个概念里，结构性指数增长的确实主要是 HBM。但事情在 2025 年年底之后起了变化：随着 agentic CPU开始释放潜力，CPU 附带的那部分 DRAM 需求，正在成为 DRAM 新的结构性指数增长来源 —------ 这部分的增长逻辑分两层：第一层是CPU 服务器TAM的快速增长，第二层是每个服务器CPU core配备的DRAM用量的因为agentic flow快速增长服务器CPU TAM的快速增长的4个逻辑在4月的CPU专篇详细写过，简单的说： 1. AI 加速器集群里CPU和GPU配比从传统的1：4变成1：2，甚至可能往1：1迈进 2. Agentic flow里CPU处理的延迟占比很高，50~90%成为重要瓶颈，需要同步扩容 3. AI coding让SDE的效率大幅提升，代码量数量级增长，软件API调用指数级增长，直接转化为这部分CPU hours指数级上升 4. Sandbox为保障数据安全与隔离，如Analytical Agent 需为每个任务复制大量数据库和用户上下文，导致内存(DRAM)和CPU核心的严重浪费，而且这个浪费问题五年甚至更久无法解决。另外CPU hours 在技术上很难通过优化的方法来通缩这也就是为什么，上上个季度，AMD的财报说CPU TAM到2030年会到60B，两个月前，AMD/ARM把CPU TAM的2030年预测翻倍到120B，一个月前，Nvidia再次把CPU TAM的2030年预测翻倍到200B 而上个星期，Bernstein再次提升2030 CPU TAM指引到223B。在我看来，2031 CPU TAM未来上修到400B是没有太大悬念的事情，唯一的悬念是几个巨头会什么时候宣布上修这个指引再说说第二层，为什么每个服务器CPU core配备的DRAM用量在agentic时代快速增长？ 1. Agent 是带状态的长驻进程，不是无状态的请求-响应传统 web/SaaS 是 stateless 的：请求进来，分配内存，处理完内存立刻回收。而一个 Agent 任务可以跑一分钟到一个小时，这整段时间里，它的 message history、system prompt、工作记忆、长期记忆、工具结果 buffer 全部常驻 DRAM 和 CPU hours 一样，每个任务的内存足迹因为 stateful 和 sandbox 隔离(每个任务复制数据库和上下文)的要求，技术上很难压缩 2. 上下文窗口在指数级变长，每个会话的工作集随之膨胀，并发度 × 单会话memory footprint，乘数放大 context window 从 32K → 256K → 1M，reasoning / test-time compute 的序列长度爆炸，未来还会继续增大。每个活跃会话常驻的 messages 随 context 长度线性增长现在把两层乘起来。第一层，CPU server 的 TAM，朝 2030~2031 看大概是 5–7 倍的量级(60B → 120B → 200B → 223B，我认为还会到 400B) 第二层，每颗 CPU 的 DRAM 配比，大概 3–4 倍(4~8GB → 16~32 GB/core)，但这个增长可能大部分是一次性红利两个独立变量相乘，server 侧的 DRAM 需求是数量级的增长 2030年，即便按保守的300B CPU TAM，一个CPU core按$50来算，agent时代最保守按16GB/core，这算出来新增量最少都是96EB，而今年的DRAM总产量只有47EB，明年勉强60EB，这是非常惊人的增量虽然这个agentic CPU带来的DRAM指数级增长，在第二层很大程度上是一次性红利，但持续时间会持续很久很久，因为这个短缺的缺口实在是太大了 —-------- 回到文章开头那个框架。三个摆脱传统周期的条件里，第一条DRAM 定制化，基本可以忽略而第二条：一个结构性指数级、而且很难逆转的需求来源是成立的。commodity DRAM 现在也具备了部分摆脱传统周期性的资格。没有 HBM(两条半)那么彻底，但已经是实质性的变化第三条，技术迭代速度，DRAM的节奏也跟以前不一样了因为以前的DRAM技术迭代速度是严重依赖消费电子的，DDR的进步对于performance用处并不大，但可预见的未来里，碳基消费的传统DRAM，会远远小于硅基消费（CPU服务器）DRAM的用量以前DRAM的速度升级带来的边际效用是很低的，但现在因为CPU服务器对memory的需求增大，以及端侧AI对DDR速度的要求也增大，比如苹果为了跑本地大模型，LPDDR速度越来越快速度升级的边际效用高了不少，所以DDR6和LPDDR6的速度迭代需求比以前提升了太大了，这在图里也可以看到，LPDDR6/DDR6的迭代时间缩短了，而且速度斜率，重新开始抬头以前新一代DDR/LPDDR技术出来，大家的反应都很冷淡，等降价了才会用而现在LPDDR6出来，各家恨不得都在抢着能尽量早上就尽量早，因为速度的提升带来的performance提升是触手可及的 ------ 另外，DDR 的供给还要被 HBM 额外抽一道税。HBM 每年的扩产速度太快，导致每年都有一批原本可以做 commodity DDR 的 wafer 被拉去做 HBM，而 HBM 的转换比极低，HBM3E 大约要 3 片 DDR wafer 的产能才能做出等量的 bit，HBM4 是4 片。所以每年大约有 3% 到 5% 的 DDR bit 增长，是被这个 HBM bit tax直接吃掉的所以DRAM bit volume虽然未来每年能增长24%左右（14%来自wafer增长，9%来自每个wafer的DRAM密度增长），但算上HBM bit tax之后，传统的、非 HBM 的 commodity DDR，每年的 bit growth 大概只有 20%（约 10% 的 wafer 增长 × 约 9% 的 node density 提升） —--------------------- 中国长鑫扩产的影响有多大？如果不讲武德拼命扩产，会不会把这个市场重新带入周期泥潭？长鑫这几年的扩产速度还是很快的，2025年还是每个月20万晶圆，2026年北京晶圆厂及新增生产线的贡献就能到32~35万。正在建设中的上海工厂一期和二期，一期预计到2027年每月新增10万片晶圆产能，二期预计到2028年每月新增10万片晶圆产能，也就是说，2027年每个月42万晶圆，2028年能到每个月50万晶圆。但需要注意的是，长鑫的dram bit 密度大概只有御三家的一半左右，所以长鑫的每个月50万晶圆wafer能产出的dram bit volume只有其他家的一半，这里计算wafer per month的时候，就按等效一半来算把这个折扣打上之后，长鑫对整个DRAM行业的冲击还是小了很多，从2025年年底到2028年年底，长鑫对DRAM bit产能CAGR的影响大概只有1.5%，全行业的DRAM产能CAGR大概从12.7%升到14.2% DRAM月产能(kwspm) 2025E → 2028E CAGR Samsung 685K → 920K 10.3% SK Hynix 519K → 725K 11.8% Micron 340K → 560K 18.1% 非中国其他 150K → 218K 13.3% 中国(密度折半) 117K → 274K 32.8% ————————————————— 含中国总计 1811K → 2697K 14.2% 无中国总计 1694K → 2423K 12.7% 就算是长鑫未来还能保持增产速度，2030年对全行业等效产能每年DRAM bit volume增产CAGR的影响，大概也不到3%，从20% CAGR变成23% CAGR，仅此而已另外，长鑫被光刻机所限制，而DDR6 需要更高速率（14400 MT/s 起步）和更高密度,御三家做 DDR6 大概率会用 1c 或更先进节点（~12nm 以下），已经全面用 EUV。长鑫可能会在DDR6上速率受限，密度也只有一半。 —---------------- 即便是成长性周期，为什么DRAM的这轮超级周期会持续很长时间，起码五年看不到头？第一个原因是，刚才谈到的CPU服务器需求端的巨量增长带来的结构性DRAM需求指数增长，这里结合DRAM供给端的bit volume CAGR大概稳定20%增长，就可以很清晰的看到，DRAM未来几年的缺口为什么越来越大：非HBM的传统DRAM供给端大概是每年增长20%，而需求端，按2026年60B CPU TAM，每个CPU消耗DRAM平均8GB/core，每个core $30~35来算，需求是16EB 2030年按400B CPU TAM，每个CPU消耗DRAM平均16GB/core，每个core $80来算(CPU涨价超过一倍)，需求是80EB，这部分DRAM的增长CAGR大概是50%，远远超过目前的估算不同于HBM是直接和token throughput挂钩，从而和GPU赚钱效率直接挂钩，DRAM不够对于agent flow的影响主要是速度，比如说，8GB/core和16GB/core比起来，部分workload速度可能降低30%，部分低价值task实在要等等也能忍，结构性指数增长的动机很强，但需求不如GPU那么刚性 Semianalysis说今年的DRAM缺口式个位数百分数，明年是超过10%。从agent CPU数量激增导致的DRAM结构性来看，这个缺口每年都会继续加大，在2030年之前看不到降低的可能 —---- 另外一个DRAM能延续强势很久的逻辑是，因为DRAM涨价之后，被涨价消灭的那部分需求，不是真的消失了，只是延迟了，需求蓄水池太多了。所谓蓄水池，是指那些"内存一旦降价就会立刻被释放出来的潜在需求"。它们的存在，意味着即便供给阶段性跟上了，价格也很难崩，因为总有新的需求从蓄水池里涌出来接盘：内存换算力/速度是一个蓄水池：有大量本来需要靠额外内存来优化速度和算力的需求，在内存太贵时被压着，一旦内存降价就会被释放出来。比如 Nvidia的CPX prefill 加速，本来的设计初衷是用额外的低成本GDDR7，来做一个专门的prefill加速器，结果LPDDR/GDDR都太贵了，比涨价前的HBM还贵，这个方案的ROI就不划算了，但等到普通内存降价，这样类似CPX的优化方案就还会回来低价值task是一个蓄水池：内存涨价导致token价格居高不下时，高价值的 task 被优先保留，低价值的 task 被延后；内存一降价，这些被延迟的需求就回来了。端侧 AI 是一个蓄水池：AI PC 的内存配置可能从 24GB 一路涨到 128GB。苹果已经明确要求最新的端侧AI满血版需要从8GB升级到12GB内存常规消费电子、Agent PC、低端手机，因为内存涨价而减少的需求，全都是蓄水池。这么多蓄水池叠在一起，构成了一个极厚的需求缓冲垫。这就是为什么 DDR 这轮的结构性增长，后劲会比市场想象的要强。 —----- 还有一个DRAM价格很难大幅下降的原因在于，HBM和DRAM产能可以互相转换，所以整个DRAM complex是一起re-rate的在上行期DRAM的利润率远超HBM，HBM的涨价幅度甚至变成了由DRAM去推动。今年新签约的HBM4的价格，就是当期DRAM的价格 x 4，也就是正常堆叠倍数对应HBM4的价格一旦DRAM降价毛利下滑，因为HBM的长约透明性，利润率都是有保障的，HBM就会间接抽走更多的DRAM产能，HBM的降价也会让GPU厂商更有动力尽可能的升级HBM size，这样也间接保障了DRAM的价格地板 DRAM的结构性指数增长的需求有了，density scaling放缓扩产难度在增加，厂商扩产计划都很谨慎，长鑫这几年带来的影响也是有限的，再加上需求的蓄水池非常庞大，这四个原因导致了，在可预见的至少五年甚至更长时间内，DRAM是很难进入周期低谷��。 —-------------- NAND SSD有希望摆脱传统周期性吗？ NAND 的结构性增长动力没有 DDR 那么强，今年的缺货主要原因是几个主要玩家的生产纪律保持的很好，并没有大规模扩产，每年的产能增加主要来源于技术改进：NAND堆叠层数的增加第一个结构性增长来自AI，主要来自 KV cache 的 offloading，把HBM溢出的warm/cold KV cache 卸载到 NAND SSD上。但神��的事情是，这个kv cache offloading的增长甚至还没有大规模发生，SSD就已经缺的比DRAM还严重了，涨价也比DRAM要更多。等到明年Rubin CMX放量，加上KV cache offloading大规模应用，SSD的缺货也会因为这个结构性增长而增长第二个，另一个去年年度总结里说到的未来可期的AI视频带来的结构性增量，今年已经有出圈的态势了 Seedance体量在以一年十倍到四十倍的速度增长。目前它还卡在缺卡算力不足的阶段，需求被算力压着没完全释放。但等到缺卡阶段过去，AI 视频对NAND存储的结构性需求增长，会持续相当长的一段时间。第三个结构性增长也同样来自于agent flow带来的Sandbox使用量的指数级增长，Sandbox为保障数据安全与隔离，如Analytical Agent 需为每个任务复制大量数据库和用户上下文，导致内存(DRAM)和CPU核心的严重浪费，同样会带来大量的SSD的浪费（需求）第四个也许在2030年之后发挥作用的结构性增长，来自于HBF路线需要用到SSD，在不少投行分析中被寄予厚望，但这个技术路线还有些遥远，主要角色定位只能作为存放大模型的weights，写一次权重然后做只读，而且必须要和GPU/HBM封装在一起（48TBps/96TBps），否则靠PCIE7/8速度太慢完全无法用，只能说未来可期，下一篇AI半导体终局推演2026(III)会有更详细的分析总之，NAND SSD的结构性增长没有HBM那么强，但是胜在便宜，价格到2027年也只有$0.8/GB，是同期DRAM的四十分之一，所以也算是多级缓存里的万金油属性，结构性增长来源太广泛了也就是说，不存在DRAM/HBM单独涨价繁荣，而SSD不涨价的情况，因为如果这样的情况发生，那么大家就会想办法用SSD去承载DRAM/HBM的部分功能，用更低的成本实现类似的效果。HBM、DRAM、NAND 不是三个独立故事，而是同一 AI memory hierarchy 在不同温度层的结构性增长结构性指数增长的需求有了，NAND SSD摆脱周期了吗？那么就要看NAND SSD厂家的生产纪律了，唯一可能不遵守生产纪律的，只有长存。毕竟这是一个囚徒困境，一旦有一家不讲武德拼命扩产，整个NAND产业要扩产的难度比DRAM简单的多。但最起码的，这一轮NAND同样是超级周期，几个结构性指数增长带来的需求，下行期推迟到2030年问题不大

285

39.8K

· Data updated 26m ago

Data updated 26m ago

Velocity

24.3K/h

Viral

Viral Probability

100%

Predicted Views

828.0K

🔥 Search Hot Tweets

OōEli.eth