🔥 Search Hot Tweets
Discover fast-rising X posts through keyword search and intelligent analysis. Review high-potential tweets manually, or use Automated X Engagement in hot tweets mode so SoPilot can open tweets, generate quality comments, and save engagement history during the golden window.
We recommend installing the SoPilot plugin so comments or quote-post content can be generated automatically when opening X posts.
AI半导体终局推演2026(II) 当半导体结构性演进到AI推理主线,内存和存储成为了最大瓶颈,市场对内存和存储最大的怀疑就是: HBM/DRAM/SSD会不会摆脱传统周期性? 依赖HBM指数增长的GPU架构路线进化路线,会不会停止?什么时候停止? 长鑫扩产的影响有多大?会不会把这个市场重新带入周期泥潭? 本篇尝试去建立一个框架来梳理这几个问题 —---------—--------- 万物皆周期,而内存的周期性又特别强,最大的来源在于扩产周期过长,无法快速扩产和需求短缺时期错配 摆脱传统周期性几种可能的方式 1. 定制化:产品不可互换,产能不能随便转移,需要签长约。 2. 结构性的指数级需求增长:需求曲线本身很陡峭,而且供给一直追不上。 3. 技术迭代快速升级:每一代产品都快速淘汰上一代。 满足任何一条,就能部分摆脱传统周期;满足两到三条,就能摆脱大部分传统周期 根据这个框架, HBM在三条里,大概占了两条半 1. 定制化,需要签长约(较弱,算半条) HBM 确实有定制化和Nvidia codesign的成分,但并不是很强。真正定制的部分只在封装和 base die,上面那十几层 DRAM die 仍然是完全 JEDEC 标准化的。 比如当 Samsung 的 HBM3E 在 NVIDIA 的 qualification 上没过、份额从大约 60% 一路跌到 20% 的时候,它并没有把这批产能砸在手里报废,而是转手就供给了 Google 的 TPU、AMD. 物理上,给 NVIDIA 的 HBM3E 和给 AMD 的 HBM3E,是同一个东西。 所以产能仍然是部分可以自由转移的。 HBM4之后的定制化更多一些,包括在 base die 上集成定制逻辑和/或缓存。更复杂的方式是将 HBM4E 内存控制器和定制 die-to-die 接口直接放入逻辑 base die SemiAnalysis 提到 OpenAI、NVIDIA 和 AMD 各自都在做定制 HBM 的工作,但这指的是 base die 的定制,上面的 DRAM 层仍然是标准的。 部分定制化的特性,HBM主要在封装上需要合作,这也导致了客户必须签长约,但产能也确实可以转移,所以HBM 能勉强算半条。 2. 结构性的指数需求增长(满足) 最直观的原因,就是Nvidia token factory token throughput的硬件升级需求,导致了HBM带宽的升级换代极快,以及HBM size需求的指数增长 这一条其实就是上一篇AI半导体终局推演2026(I)的结论: token throughput = HBM size × HBM 带宽,每一代翻倍。 HBM size per GPU大概每年增长40%以上 这条需求曲线的陡峭程度,是DRAM供给端 14% 的 wafer 增长,乘以 9% 的 density 提升,很难追上的 在硬件领域,因为attn阶段KV cahce的极高带宽和极高memory size的要求,也导致了HBM独特的地位。即便是HBM涨价三五倍,把钱花在HBM上带来的边际token throughput提升,仍然比花在其他地方要划算的多。 其他几个Memory路线,SRAM,HBF,CXL,PIM,目前都无法在HBM的主力赛道kv cache/attention上正面竞争,起码未来5年甚至更长时间,不太可能找到替代路线 3. 技术迭代快速升级(满足) DDR3时代过了15年,仍然只是DDR5时代,而HBM的升级换代的速度基本上是两年一代,比传统DDR要快很多很多,而且近来还有加速的趋势,HBM size x HBM BW每一代翻倍,目前是完全符合这个规律的 每两年一代HBM升级,NV GPU速度基本是指数型上升:2TB/s ->3.5TB/s->4.8TB/s ->8TB/s->22TB/s,而且HBM的速度和推理token throughput是完全线性正比的,上一代HBM的边际使用成本会不划算,大家都有动机去尽量用最新的产品,虽然更贵,但是带来的收益(token throughput)是更多的 Token factory时代的逻辑是,技术升级(HBM带宽)的越多,赚的越多 这个速度差,造成了一个和 CPU 类似的局面:旧产品快速贬值,于是囤货的价值在变低,比如说,HBM3的价值贬值的非常快,今天基本上主流产品不会用了 所以HBM 厂商的理性选择,从拼当前的产能去占市场(quantity competition),变成了在稳定性和HBM速度上拼技术,拼下一代在 NVIDIA 平台上的 qualification 份额(quality competition),从而避免了在传统周期的下行波段,大家都不愿减产掉市场份额的囚徒困境。 —--------------—-------------- HBM和传统DRAM比较,三个条件里满足了两个半,那么HBM能摆脱传统周期性吗? 内存周期性的来源,主流叙事是,DRAM 有Commodity属性(无差异化 → 价格战 →库存可囤积),所以有周期性。 而Commodity属性本身并不产生周期,它只是一个振幅放大器 特别是DRAM领域里,曾经产���过囚徒困境,在下行周期三星曾经扩产抢市场份额,谁先减产谁吃亏,导致谁也不敢轻易减产,最后大家都亏损惨烈 实际上周期性的主要结构性来源是供给周期太长,很容易和需求周期错位。建一座 fab 要 3 年,投资上百亿美元,一旦决策就不可逆,而需求增长会有不稳定性,每次出现新范式增长,比如云服务,移动互联网手机,疫情线上需求,会有爆发式增长,而过了两年增长会放缓,供给高于需求,降价过猛,就变成了亏钱周期 万物皆周期,HBM这一条同样是无法避免,但只要token需求仍然是指数型增长,结构性的指数增长会减弱周期性,因为需求可预测度更好,而且一旦降价,客户就有增大HBM size的需求(从而增大token throughput),加上HBM有一点定制化要求导致都是长约,从而从周期性转化成成长周期性,而且这一轮周期会特别长 周期性:上行周期赚的多,下行周期亏的多 成长周期性:上行周期赚的多,下行周期赚的少 另外,HBM/DRAM在这三条摆脱传统周期的条件的基础上,还有一条重要优势: 4. 因为DRAM密度增长scaling越来越慢,以及HBM升级换代导致DRAM堆叠倍数的增加,供给端的扩产难度持续增加 2000年附近,DRAM每片wafer上DRAM bit密度每年增长大概45%,也就是说,就算晶圆wafer数量不扩产,每年的供给端DRAM bit仍然可以增长45% 十年前,DRAM bit每年密度增长降到了20%,而现在,DRAM bit每年密度增长降到了9%。以前DRAM扩产甚至不怎么需要新建厂房就能得到每年20~30%的bit volume上升,现在DRAM要扩产,更多的是靠wafer数量的增长,也就是新建厂房和clean room。 另外一个HBM快速扩产难度在于,HBM3e大概需要3倍的DRAM wafer晶圆,而HBM4由于堆叠密度的增加,大概需要4倍的DRAM wafer晶圆数量,相当于HBM bit相对于DRAM bit一直变得更难制造,单位DRAM wafer数量制造的HBM bit越来越少,相当于在通缩 ---------------------------------- HBM未来有一天,会不会从成长周期性,变回传统周期性?最重要的因素是结构性指数增长,那么 AI推理时代,这个依赖HBM指数增长的GPU架构路线进化路线,会不会停止?什么时候停止? token throughput = HBM size × HBM 带宽,这个HBM指数增长的第一性原理里的HBM size的增长原因正是KV cache的增长。KVCache的特性以及Attention的特性,也是非常契合HBM的。甚至让HBM领先于其他的技术路线, 能够最大化地让KVCache和Attention 阶段的利用率。 换言之, 如果KV cache从架构上不存在了,那么HBM size指数增长逻辑也会受到挑战 所以这个问题的本质其实是,这一轮以 Transformer 为代表的 attention 机制、以及由它衍生的 KV cache 机制,会不会消失?退潮之后会不会被取代? 从历史规律来看:每一次AI模型架构革命,真正被保留下来的,是那些在数学上具有某种普适性的 primitive 操作 举个例子:FFN(前馈网络,也就是模型里大量的 MLP 层)是 2012 年深度学习时代的产物,但它一路活到了今天的大语言模型里,并且仍然占据着模型相当大的参数量。它为什么能活下来?因为这也是一种universal approximation theorem(通用逼近定理):任何足够宽的 MLP 都能逼近任意连续函数 Attention 大概率也是这样一个会被保留的 primitive。因为它解决的是一个同样 基础的问题:序列sequence 中任意两个位置之间的 dynamic routing(动态路由),让一个序列里任意两个位置都能按需建立联系。这个能力一旦被验证有效,就很难被丢弃 所以即便未来架构从纯 Transformer 向混合架构演进,或者向世界模型演进,但attention 层依然会存在,KV cache(或者它经过 latent compression 之后的等价物)依然需要,HBM依然会作为推理核心之一,这个依赖HBM指数增长的GPU KV cache架构路线进化路线,不会停止 —---------------—--------------- 那么DRAM呢?在未来有没有摆脱传统周期性的可能? HBM摆脱周期性在市场上有一定共识,但DRAM摆脱周期性,市场目前基本没有共识 还是回到刚才的框架,三个摆脱传统周期的条件里,DRAM是没有定制化的,所以就只能看技术迭代速度,最关键的还是要看,有没有结构性的指数增长,答案是有的 在 AI token factory 这个概念里,结构性指数增长的确实主要是 HBM。但事情在 2025 年年底之后起了变化:随着 agentic CPU开始释放潜力,CPU 附带的那部分 DRAM 需求,正在成为 DRAM 新的结构性指数增长来源 —------ 这部分的增长逻辑分两层:第一层是CPU 服务器TAM的快速增长,第二层是每个服务器CPU core配备的DRAM用量的因为agentic flow快速增长 服务器CPU TAM的快速增长的4个逻辑在4月的CPU专篇详细写过,简单的说: 1. AI 加速器集群里CPU和GPU配比从传统的1:4变成1:2,甚至可能往1:1迈进 2. Agentic flow里CPU处理的延迟占比很高,50~90%成为重要瓶颈,需要同步扩容 3. AI coding让SDE的效率大幅提升,代码量数量级增长,软件API调用指数级增长,直接转化为这部分CPU hours指数级上升 4. Sandbox为保障数据安全与隔离,如Analytical Agent 需为每个任务复制大量数据库和用户上下文,导致内存(DRAM)和CPU核心的严重浪费,而且这个浪费问题五年甚至更久无法解决。另外CPU hours 在技术上很难通过优化的方法来通缩 这也就是为什么,上上个季度,AMD的财报说CPU TAM到2030年会到60B,两个月前,AMD/ARM把CPU TAM的2030年预测翻倍到120B,一个月前,Nvidia再次把CPU TAM的2030年预测翻倍到200B 而上个星期,Bernstein再次提升2030 CPU TAM指引到223B。在我看来,2031 CPU TAM未来上修到400B是没有太大悬念的事情,唯一的悬念是几个巨头会什么时候宣布上修这个指引 再说说第二层,为什么每个服务器CPU core配备的DRAM用量在agentic时代快速增长? 1. Agent 是带状态的长驻进程,不是无状态的请求-响应 传统 web/SaaS 是 stateless 的:请求进来,分配内存,处理完内存立刻回收。而一个 Agent 任务可以跑 一分钟到一个小时,这整段时间里,它的 message history、system prompt、工作记忆、长期记忆、工具结果 buffer 全部常驻 DRAM 和 CPU hours 一样,每个任务的内存足迹因为 stateful 和 sandbox 隔离(每个任务复制数据库和上下文)的要求,技术上很难压缩 2. 上下文窗口在指数级变长,每个会话的工作集随之膨胀,并发度 × 单会话memory footprint,乘数放大 context window 从 32K → 256K → 1M,reasoning / test-time compute 的序列长度爆炸,未来还会继续增大。每个活跃会话常驻的 messages 随 context 长度线性增长 现在把两层乘起来。 第一层,CPU server 的 TAM,朝 2030~2031 看大概是 5–7 倍的量级(60B → 120B → 200B → 223B,我认为还会到 400B) 第二层,每颗 CPU 的 DRAM 配比,大概 3–4 倍(4~8GB → 16~32 GB/core),但这个增长可能大部分是一次性红利 两个独立变量相乘,server 侧的 DRAM 需求是数量级的增长 2030年,即便按保守的300B CPU TAM,一个CPU core按$50来算,agent时代最保守按16GB/core,这算出来新增量最少都是96EB,而今年的DRAM总产量只有47EB,明年勉强60EB,这是非常惊人的增量 虽然这个agentic CPU带来的DRAM指数级增长,在第二层很大程度上是一次性红利,但持续时间会持续很久很久,因为这个短缺的缺口实在是太大了 —-------- 回到文章开头那个框架。三个摆脱传统周期的条件里,第一条DRAM 定制化,基本可以忽略 而第二条:一个结构性指数级、而且很难逆转的需求来源是成立的。commodity DRAM 现在也具备了部分摆脱传统周期性的资格。没有 HBM(两条半)那么彻底,但已经是实质性的变化 第三条,技术迭代速度,DRAM的节奏也跟以前不一样了 因为以前的DRAM技术迭代速度是严重依赖消费电子的,DDR的进步对于performance用处并不大,但可预见的未来里,碳基消费的传统DRAM,会远远小于硅基消费(CPU服务器)DRAM的用量 以前DRAM的速度升级带来的边际效用是很低的,但现在因为CPU服务器对memory的需求增大,以及端侧AI对DDR速度的要求也增大,比如苹果为了跑本地大模型,LPDDR速度越来越快 速度升级的边际效用高了不少,所以DDR6和LPDDR6的速度迭代需求比以前提升了太大了,这在图里也可以看到,LPDDR6/DDR6的迭代时间缩短了,而且速度斜率,重新开始抬头 以前新一代DDR/LPDDR技术出来,大家的反应都很冷淡,等降价了才会用 而现在LPDDR6出来,各家恨不得都在抢着能尽量早上就尽量早,因为速度的提升带来的performance提升是触手可及的 ------ 另外,DDR 的供给还要被 HBM 额外抽一道税。HBM 每年的扩产速度太快,导致每年都有一批原本可以做 commodity DDR 的 wafer 被拉去做 HBM,而 HBM 的转换比极低,HBM3E 大约要 3 片 DDR wafer 的产能才能做出等量的 bit,HBM4 是4 片。所以每年大约有 3% 到 5% 的 DDR bit 增长,是被这个 HBM bit tax直接吃掉的 所以DRAM bit volume虽然未来每年能增长24%左右(14%来自wafer增长,9%来自每个wafer的DRAM密度增长),但算上HBM bit tax之后,传统的、非 HBM 的 commodity DDR,每年的 bit growth 大概只有 20%(约 10% 的 wafer 增长 × 约 9% 的 node density 提升) —--------------------- 中国长鑫扩产的影响有多大?如果不讲武德拼命扩产,会不会把这个市场重新带入周期泥潭? 长鑫这几年的扩产速度还是很快的,2025年还是每个月20万晶圆,2026年北京晶圆厂及新增生产线的贡献就能到32~35万。 正在建设中的上海工厂一期和二期,一期预计到2027年每月新增10万片晶圆产能,二期预计到2028年每月新增10万片晶圆产能,也就是说,2027年每个月42万晶圆,2028年能到每个月50万晶圆。 但需要注意的是,长鑫的dram bit 密度大概只有御三家的一半左右,所以长鑫的每个月50万晶圆wafer能产出的dram bit volume只有其他家的一半,这里计算wafer per month的时候,就按等效一半来算 把这个折扣打上之后,长鑫对整个DRAM行业的冲击还是小了很多,从2025年年底到2028年年底,长鑫对DRAM bit产能CAGR的影响大概只有1.5%,全行业的DRAM产能CAGR大概从12.7%升到14.2% DRAM月产能(kwspm) 2025E → 2028E CAGR Samsung 685K → 920K 10.3% SK Hynix 519K → 725K 11.8% Micron 340K → 560K 18.1% 非中国其他 150K → 218K 13.3% 中国(密度折半) 117K → 274K 32.8% ————————————————— 含中国总计 1811K → 2697K 14.2% 无中国总计 1694K → 2423K 12.7% 就算是长鑫未来还能保持增产速度,2030年对全行业等效产能每年DRAM bit volume增产CAGR的影响,大概也不到3%,从20% CAGR变成23% CAGR,仅此而已 另外,长鑫被光刻机所限制,而DDR6 需要更高速率(14400 MT/s 起步)和更高密度,御三家做 DDR6 大概率会用 1c 或更先进节点(~12nm 以下),已经全面用 EUV。长鑫可能会在DDR6上速率受限,密度也只有一半。 —---------------- 即便是成长性周期,为什么DRAM的这轮超级周期会持续很长时间,起码五年看不到头? 第一个原因是,刚才谈到的CPU服务器需求端的巨量增长带来的结构性DRAM需求指数增长,这里结合DRAM供给端的bit volume CAGR大概稳定20%增长,就可以很清晰的看到,DRAM未来几年的缺口为什么越来越大: 非HBM的传统DRAM供给端大概是每年增长20%,而需求端,按2026年60B CPU TAM,每个CPU消耗DRAM平均8GB/core,每个core $30~35来算,需求是16EB 2030年按400B CPU TAM,每个CPU消耗DRAM平均16GB/core,每个core $80来算(CPU涨价超过一倍),需求是80EB,这部分DRAM的增长CAGR大概是50%,远远超过目前的估算 不同于HBM是直接和token throughput挂钩,从而和GPU赚钱效率直接挂钩,DRAM不够对于agent flow的影响主要是速度,比如说,8GB/core和16GB/core比起来,部分workload速度可能降低30%,部分低价值task实在要等等也能忍,结构性指数增长的动机很强,但需求不如GPU那么刚性 Semianalysis说今年的DRAM缺口式个位数百分数,明年是超过10%。从agent CPU数量激增导致的DRAM结构性来看,这个缺口每年都会继续加大,在2030年之前看不到降低的可能 —---- 另外一个DRAM能延续强势很久的逻辑是,因为DRAM涨价之后,被涨价消灭的那部分需求,不是真的消失了,只是延迟了,需求蓄水池太多了。 所谓蓄水池,是指那些"内存一旦降价就会立刻被释放出来的潜在需求"。它们的存在,意味着即便供给阶段性跟上了,价格也很难崩,因为总有新的需求从蓄水池里涌出来接盘: 内存换算力/速度是一个蓄水池: 有大量本来需要靠额外内存来优化速度和算力的需求,在内存太贵时被压着,一旦内存降价就会被释放出来。 比如 Nvidia的CPX prefill 加速,本来的设计初衷是用额外的低成本GDDR7,来做一个专门的prefill加速器,结果LPDDR/GDDR都太贵了,比涨价前的HBM还贵,这个方案的ROI就不划算了,但等到普通内存降价,这样类似CPX的优化方案就还会回来 低价值task是一个蓄水池:内存涨价导致token价格居高不下时,高价值的 task 被优先保留,低价值的 task 被延后;内存一降价,这些被延迟的需求就回来了。 端侧 AI 是一个蓄水池:AI PC 的内存配置可能从 24GB 一路涨到 128GB。苹果已经明确要求最新的端侧AI满血版需要从8GB升级到12GB内存 常规消费电子、Agent PC、低端手机,因为内存涨价而减少的需求,全都是蓄水池。 这么多蓄水池叠在一起,构成了一个极厚的需求缓冲垫。这就是为什么 DDR 这轮的结构性增长,后劲会比市场想象的要强。 —----- 还有一个DRAM价格很难大幅下降的原因在于,HBM和DRAM产能可以互相转换,所以整个DRAM complex是一起re-rate的 在上行期DRAM的利润率远超HBM,HBM的涨价幅度甚至变成了由DRAM去推动。今年新签约的HBM4的价格,就是当期DRAM的价格 x 4,也就是正常堆叠倍数对应HBM4的价格 一旦DRAM降价毛利下滑,因为HBM的长约透明性,利润率都是有保障的,HBM就会间接抽走更多的DRAM产能,HBM的降价也会让GPU厂商更有动力尽可能的升级HBM size,这样也间接保障了DRAM的价格地板 DRAM的结构性指数增长的需求有了,density scaling放缓扩产难度在增加,厂商扩产计划都很谨慎,长鑫这几年带来的影响也是有限的,再加上需求的蓄水池非常庞大,这四个原因导致了,在可预见的至少五年甚至更长时间内,DRAM是很难进入周期低谷���。 —-------------- NAND SSD有希望摆脱传统周期性吗? NAND 的结构性增长动力没有 DDR 那么强,今年的缺货主要原因是几个主要玩家的生产纪律保持的很好,并没有大规模扩产,每年的产能增加主要来源于技术改进:NAND堆叠层数的增加 第一个结构性增长来自AI,主要来自 KV cache 的 offloading,把HBM溢出的warm/cold KV cache 卸载到 NAND SSD上。 但神��的事情是,这个kv cache offloading的增长甚至还没有大规模发生,SSD就已经缺的比DRAM还严重了,涨价也比DRAM要更多。等到明年Rubin CMX放量,加上KV cache offloading大规模应用,SSD的缺货也会因为这个结构性增长而增长 第二个,另一个去年年度总结里说到的未来可期的AI视频带来的结构性增量,今年已经有出圈的态势了 Seedance体量在以一年十倍到四十倍的速度增长。目前它还卡在缺卡算力不足的阶段,需求被算力压着没完全释放。但等到缺卡阶段过去,AI 视频对NAND存储的结构性需求增长,会持续相当长的一段时间。 第三个结构性增长也同样来自于agent flow带来的Sandbox使用量的指数级增长,Sandbox为保障数据安全与隔离,如Analytical Agent 需为每个任务复制大量数据库和用户上下文,导致内存(DRAM)和CPU核心的严重浪费,同样会带来大量的SSD的浪费(需求) 第四个也许在2030年之后发挥作用的结构性增长,来自于HBF路线需要用到SSD,在不少投行分析中被寄予厚望,但这个技术路线还有些遥远,主要角色定位只能作为存放大模型的weights,写一次权重然后做只读,而且必须要和GPU/HBM封装在一起(48TBps/96TBps),否则靠PCIE7/8速度太慢完全无法用,只能说未来可期,下一篇AI半导体终局推演2026(III)会有更详细的分析 总之,NAND SSD的结构性增长没有HBM那么强,但是胜在便宜,价格到2027年也只有$0.8/GB,是同期DRAM的四十分之一,所以也算是多级缓存里的万金油属性,结构性增长来源太广泛了 也就是说,不存在DRAM/HBM单独涨价繁荣,而SSD不涨价的情况,因为如果这样的情况发生,那么大家就会想办法用SSD去承载DRAM/HBM的部分功能,用更低的成本实现类似的效果。HBM、DRAM、NAND 不是三个独立故事,而是同一 AI memory hierarchy 在不同温度层的结构性增长 结构性指数增长的需求有了,NAND SSD摆脱周期了吗? 那么就要看NAND SSD厂家的生产纪律了,唯一可能不遵守生产纪律的,只有长存。毕竟这是一个囚徒困境,一旦有一家不讲武德拼命扩产,整个NAND产业要扩产的难度比DRAM简单的多。 但最起码的,这一轮NAND同样是超级周期,几个结构性指数增长带来的需求,下行期推迟到2030年问题不大
一堆人说,未来到美国读博士找工作,可千万别选国防七子,宁可选普通211,可千万别碰哈工大,否则你这辈子进不去OpenAI了,你终身遗憾,你给自己的人生埋地雷! 我说,绝大多数人就算没去哈工大,这辈子也连OpenAI的门框都摸不到,无论去不去哈工大,这件事并不影响你人��的上限。 对于很多人而言, 你人生的第一大门槛,是能不能进华为OD做华为苦力大外包,而不是考虑Stanford和MIT哪个进OpenAI更轻松简单。
如果真的阿里每个月用2.5万个账户蒸馏Claude的话,每月的订阅费就是500万美元。
一个中国女孩说 这是她成年以来最好的夏天 -考上了公务员 所有文字工作靠kimi deepseek这些AI,一分钟就做完了,剩下的时间都在摸鱼 - 把所有工资扔进国产大模型的股票智谱 今年涨了1770%,赚了五年的薪水,一切就如CCTV说那样国产大模型让我们的生活方方面面变得更好 - 到处打折 随便十公里外的一份美食别人给你跑腿送过来只需要她十分钟的薪水 前天在北京街头,因为labubu在世界杯出场得到了全世界观众山呼海啸的欢迎 所有人突然停下手头的事,拥抱在一起欢呼 她说很开心,有种人类黄金时代的错觉
阿里被 Anthropic 指控大规模“偷用”Claude 能力 6月24日,据彭博社报道,美国人工智能公司Anthropic指控与阿里巴巴旗下Qwen实验室有关联的人员,通过大量虚假注册账号访问其Claude大模型服务,并涉嫌利用相关输出数据训练自身模型。 根据Anthropic披露的信息,2026年4月至6月期间,约2.5万个账号与Claude模型进行了超过2880万次交互,请求内容主要集中在代码生成、智能体推理、复杂任务处理等能力领域。Anthropic认为,这些行为超出了正常用户使用范围,具有系统性收集模型输出数据的特征。 报道称,相关做法涉及业内所谓的“模型蒸馏(Model Distillation)”,即通过向先进模型持续提问并收集回答结果,再利用这些数据训练其他模型,以较低成本复制或接近原有模型的部分能力。 Anthropic表示,此类行为属于绕过服务限制获取模型能力,而非正常的技术学习与研究活动。不过,截至目前,该公司尚未公开披露其指控所依据的全部技术细节和证据。 值得关注的是,阿里巴巴近期刚被美国国防部列入所谓“中国军事公司”名单。对此,阿里巴巴已向美国法院提起诉讼,认为相关认定缺乏事实依据,并要求撤销该决定。 截至目前,阿里巴巴及Qwen团队尚未就Anthropic有关“大规模提取Claude模型能力”的指控作出实质性公开回应。
亲爱的,很多老登天天晒跟妹妹吃饭的照片 刷到审美疲劳了🥱 怎么没人聊 女生如何崩老头啊? 现在AI特好用 月光直接整个 #崩老头神器 赚 888888 美金?!👀 完整流程在这里: 用 @dappOS_com 的 xBubble @xBubble_ai 全新Vibe Coding 功能 直接在屏幕以文字输入想要的功能 就能生成网页,让全世界跟你一起玩 🫶 xBubble 帮月光生成的老登神评论,也很精彩 老登A说: 以前看各种财经号,全是废话 Moonlight 直 接 给 操(⚠️注意断句) 作 点 位,我 只 需 要 执 行 老登B说: 跟着Moonlight的策略 今年收益跑赢大盘40% ‼️会员订阅费半天就赚回来了‼️ 🫶 即使是不懂技术的精神小妹和傻白甜 也能月入8个亿 因为全程不用自己写代码 纯自然语言描述你要的崩老头模式就行 其实不光崩老头,人人能用它快速搭建自己的自动化获客系统 以前创业的门槛是本金,现在AI时代,真正卡人的是技术和执行力 xBubble 就是想把这两个门槛一起弄掉 他们 Coding 功能现在内测中,专门给没技术背景的人准备的 跟 Cursor、Claude Code 那些比,它更直接往商业落地走 🫶 大家都知道,写完代码只是开始 后面服务器部署、域名、API Key、支付接入这些,才是最折腾&烧钱的 xBubble 把这些底层东西都封装好了,你只要专注业务就行 更舒服的是,服务器和域名这些基础设施,是生态里的第三方直接对接用户的 平台不留后门,数据隔离,资产主权完全在自己手里 而且,还接了稳定币支付结算 对想全球搞事的人来说,省掉了传统银行开户、跨境那些乱七八糟的麻烦,成本也低很多 理论上,从产品上线到能收钱,整个闭环能走得很快 🫶 除了 Coding,xBubble 对 SOP 的理解也很深 大部分 AI项目死掉,跟会不会写发给AI的提示词无关 而是缺一套能落地的商业流程 从内容生产、营销推广,到多平台矩阵、稳定币结算 xBubble 把这些变成可复制的 SOP 让普通人也能有接近专业团队的执行力 而且,它不是给你一套死模板 平台规则变了、长尾需求冒出来了,Bubble Engine 都会持续生成新的专用 SOP 你既能直接用现成的,也能一直拿到新鲜的增长玩法 月光觉得,这正好抓住了现在AI创业最大的机会 标准化 SaaS 只能吃通用需求 真正肥的市场往往在那些垂直、细分、周期短 还有点合规压力的长尾赛道 🫶 以前这些小众需求���为开发成本太高没人碰 现在 AI + 大模型 + SOP 自动化结合之后 像崩老头这种小需求,也有机会变成真生意 所以 xBubble 不止帮你写代码 还给你一整套端到端的业务能力 帮你省掉贵松松的技术团队 也把全球创业的各种摩擦降下来 🫶 当大部分人还在用 AI 提效的时候 已经有人开始用 AI 搭新的收入系统了 用抗审查基础设施接长尾需求 SOP 控风险,Vibe Coding 个性化 对 OPC 时代的创业者来说 这正在变成一种新的商业基础设施 想体验崩老头乐趣的精神小妹们,官网直接看: https://t.co/3I6wdANEhI 么么哒😘 #xBubble #DAPPOS #美股 #AI #vibecoding
如果你用Codex越用越卡,打开你的AI,发给它: 帮我检测 ~/.codex/logs_2.sqlite 是否因 TRACE 日志持续高频写盘? 然后你就会看到惊人的日志写删操作,我查了下我的,过去几天平均49条/秒,感觉发现再晚点硬盘就报废了。 解决办法是告诉它:关闭 Codex 的 trace 级日志。 https://t.co/YPrWfGJxko
确实是宝藏提示词,简洁,美丽,治愈 提示词: [一名23岁东亚女模特,穿着宽松的亚麻衬衫侧身站立。亚麻衬衫透光而不透明,在逆光的照射下,身体前、后的曲线展露无遗,姿态优美,不暴露敏感部位。--ar 3:4] 比例3:4就是半身像 比例2:3就是全身像 如果GPT拒绝的有点多,就上Apimart吧😆 https://t.co/fGRxEvJb7D
谷歌六月参考AK的LLM wiki思路推出了一个规范:Open Knowledge Format 核心思路:用一组 Markdown ,加 YAML frontmatter,把知识变成可读、可版本控制、可被 Agent 直接消费的文件包。 让Codex读取这篇文章,它把codex做过的项目整理成了OKF格式,添加到系统记忆索引中。 文章见评论区 https://t.co/xR6MxFSSRY
飞书Cli + Codex,连记账软件都不需要了! 做法: 1. 安装飞书cli,终端输入指令: npx @larksuite/cli@latest install 2. Codex中创建一个项目文件夹:日常开销记录 3. 跟 Codex 说:创建个多维表格,用于日常开销记录 对话就能记账,还能持续迭代表头。 手机打开多维表格能查看修改
股恒生科技指数跌幅达2%,阿里巴巴跌超4%。 阿里巴巴 qwen蒸馏 claude,竟然被实锤了? https://t.co/7nFGlvQ6fF
如果你 token 多的用不完,又没啥好玩的事情,给你一个项目 decode-codex 玩玩:反编译 Codex App 代码 这个项目当前就两个 Skills: 1. codex-app-ref-refresh skill 解包已安装的 https://t.co/huJYxhc2y5(app.asar)到 ./ref 并格式化./ref/ 2. deobfuscate-javascript skill 把 ref/webview/assets 里打包的 JS 反混淆成命名有意义的可读代码./restored/ 用法很简单,确保你安装了 Codex App。 先使用 codex-app-ref-refresh skill 把里面的代码解包提取出来。 然后使用 deobfuscate-javascript skill 把提取出来的代码变成可以正常阅读的代码,这一步要配合 /goal,不然还原不了多少文件。 项目地址:https://t.co/9eYnWmQWWU 建议 fork 到自己的Repo,自己测试。
这篇Codex深度教程讲的确实非常细!我最近也在学,其中很多步骤都对我帮助很大,推荐给大家看一看。🤠
Anthropic指控阿里巴巴大规模试图窃取Claude AI技术 这家总部位于旧金山的AI公司在致美国参议员和白宫官员的一封信中详细说明,2026年4月至6月期间,与阿里巴巴通义千问(Qwen)实验室有关联的操作者绕过了中国访问限制,发起所谓的“蒸馏攻击”,批量抓取Claude的输出结果,用于训练竞争对手模型。 Anthropic称,这相当于对美国创新成果的产业级盗窃,类似于此前DeepSeek等其他中国实验室采用过的手法。 阿里巴巴拒绝置评。受此影响,在美交易的阿里巴巴股价下跌3%。与此同时,中美AI紧张关系持续升温,美国国内要求采取更严格防护措施的呼声也在上升。
啊这?Anthropic 在向政府官员的信件中,指控阿里巴巴,非法获取 Claude 模型的能力。 它们称该情况自今年 4 月 22 日,持续至 6 月 5 日,对方通过近 2.5 万个虚假账户,对 Claude 的互动超过 2880 万次,来蒸馏获取大模型能力,该行动被指跟 Qwen 员工有关。 https://t.co/GJWjeiH7H6
#Anthropic 指控阿里里旗下通义千问(Qwen)团队,注册了大约2.5万个假账号,从4月22号到6月5号,跟 Claude 聊了2880万次,试图蒸馏代码和智能体推理功能。 阿里是目前唯一赌命AI的中国科技巨头,资本开支接近经营现金流了😅 https://t.co/X86LcB8gab
Anthropic的画饼阶段结束了,代码兵马未动,计费方案先行。 1. 订阅权益升级:从单买变成低保+加餐 新版逻辑引入了 每周额度制。 这意味着未来的 Pro 或高级别订阅用户,每周将直接获得固定数量的 Fable 5 免费额度,用完后才需要消耗额外的 Usage Credits购买。 2. 为高成本长思考模型落地做准备 Fable 5既然能让 Anthropic 如此谨慎地设计Rate Limit,说明它的单次推理成本极高。 这非常符合当前大模型向推理型Agent型演进的趋势。由于需要大量的内部CoT或者高强度代码生成,它无法像普通模型那样任人无限畅饮,必须用周额度精细化管理。 3.此后,Claude Code 将成为第一核心战场 Fable 5 或者是原生深度集成代码代理能力,或者其核心主打场景就是解决极度复杂的长文本编程和架构设计。 这次改变���费门槛,显然是为了在接下来的下一代旗舰模型大战中,既能用免费周额度吸引并留住硬核核心用户,又能用算力点兜住高昂的服务器成本。 看来新模型上线的日子,真的不远了。
据路透社引述一封信函显示,美国人工智能公司Anthropic指控中国科技和电商巨头阿里巴巴非法窃取其Claude AI模型的能力,并称这是迄今为止已知针对该公司的最大规模的蒸馏攻击。 Anthropic公司称,此次活动于2026年4月22日至6月5日期间进行,通过近2.5万个欺诈账户与Claude进行了���过2880万次交互。 https://t.co/yOxul0yaif
$MU 的财报好其实不太能解决市场注意力因为资金成本上升转移到大云厂商还烧不烧的起 token 这个问题上来. 这个主要问题如果没解决, 感觉 spx 再创新高还挺难的. $MU 财报越好, 说明 token 成本会越高, 这对前端的 app 端, 其实并不是利好. 长期协议确实是个保险, 但是不要忘记 $orcl 和 OAI 也有长期协议, 当 gpt 5.4 表现垃圾, 不如 opus 4.6 的那段时间, 市场觉得 OAI 出不起钱的时候, 一样会通过它的股价和它的债券收益率表达担忧. 这段 tokenmaxxing 冷却的波段我会看2个方向: 1. app 端有没有个什么新闻证明 token 盈利能力, 这个有 hard fact data 证明, 直接看几个头部模型的 token 月使用量, 贵了增长速度就下降, 用户都是用脚投票. 2. FED 因为经济数据也好, 还是其他原因也好, 重新转鸽, 资金成本下来. 如果要靠单个公司的财报打消这个疑虑, 我感觉也要看 msft, aapl, googl, amzn 这4家, 它们其实才是直接用 token 从终端用户手里掏钱出来的地方.
前阵子我还说Seedance 2.0发了之后,其他所有视频模型全跟销声匿迹了似的,这倒好,2.5 也出来了。 今天看一视频,日本的专业动画师已经直接把Seedance 2.0 怼进生产管线了——就拿那种面数少得可怜的简陋3D块模,直接渲成能剪进正片的动画镜头。 合着你们吭哧吭哧追半年才追上人家上一代的画质,人家已经直接摸到工业化落地的门槛了,这还比个屁啊。
Gemini又有两位核心人物离开。 据 Bloomberg报道,Gemini 的两位关键贡献者 Jonas Adler @JonasAAdler 和 Alexander Pritzel @AlexPritzel 将离开 Google DeepMind,加盟 Anthropic。 Adler 是 Google AI coding 项目的关键负责人之一,Pritzel 则是基础训练团队里的核心人物。 Jonas Adler 是 KTH 应用数学背景,早期做 inverse problems 和 scientific machine learning,后来参与 AlphaFold、AlphaFold 3、Gemini 1.5。 Alexander Pritzel 是 2014 年加入 DeepMind 的老兵,早期做 deep RL、uncertainty estimation、episodic memory,后来是 AlphaFold 2 和 AlphaFold 3 的核心作者之一,再转到 Gemini 训练体系。 一个偏 coding,一个偏 pretraining,刚好都卡在 Anthropic 现在最想补强的地方。 Gemini大概是真的要完了,毕竟船要沉之前水手们是第一个知道的。
OpenAI 與博通公司( $AVGO )合作推出首款客製化 AI 晶片「Jalapeno」。該晶片已收到首批樣品,正在測試處理 AI 工作負載的能力,與典型 AI 圖形處理單元相比,成本可節省約 50%。 晶片專為LLMs推理設計,每瓦能耗效能大幅優於現有最先進水準。預計今年晚些時候起,整合至 OpenAI 及微軟等合作夥伴的資料中心。OpenAI 為因應 AI 服務激增需求,已與博通、超微半導體等廠商簽署數十億美元協議,逐步減少對英偉達晶片的依賴。 此舉標誌 OpenAI 開始掌控基礎設施各層面,有助降低成本並提升模型運行效率。未來晶片路線圖顯示,下一代版本計劃於 2028 年推出,此後將維持年度迭代節奏。博通執行長 Hock Tan 表示,前沿模型開發商最終都將打造最適合自己的客製化 AI 加速器與網路系統。
一个重要思考 海力士的HBM产能已经被提前锁走 MU有大量的LTA 三星正在把AI内存用户转化成3-5年长期合同,效仿MU和海力士 那么三星的增长点是什么? ——————— HBM 追赶成功 + AI server DRAM/NAND/eSSD 长协化 + OpenAI/Stargate 级别需求验证。 HBM4E的验证 这里就构建了三星估值重构的逻辑
$MU 的财报让整个semi都沸腾了,音乐继续,继续跳舞! 一根大阳线,千军万马来相见! $QCOM 给$MSFT 和$META 提供CPU! $NOK 连续两天和$GOOGL和$AMZN相继大单! $AVGO 给OPENAI做了推理芯片! 我虽然没有$MU $DRAM ,但我们都是一条绳上的蚂蚱。今夜我们都是美光人!
有人把小红书图文一个月 96 万曝光的方法,直接做成了一个 Codex Skill。 这比收藏 100 个提示词有用。 提示词解决的是:这一次怎么写。 Skill 解决的是:以后每次怎么判断、怎么拆、怎么出图。 项目叫:XHS Visual Director。 说白了,是小红书图文的“视觉导演”👇 https://t.co/l2ViomANv9
太牛逼了。真的,太牛逼了。真的能爬一切,而且速度嘎嘎快! 以前让 Claude Code 上网搜个东西,推特 API 要钱,网页抓取要订阅,B站小红书直接给你拦在外面。每个平台一个门槛,烦得要死。 Agent-Reach,一个免费开源仓库,一条命令把这 14 个平台全通了。 我装上跑了一遍 ,让 Agent 去搜一条小红书任意帖子的评论并总结,十秒总结出来,我当时真愣了一下,又快又好啊。 讲道理,Agent 能写代码能改文档,上网找东西就一直卡在这。Agent-Reach 干的就一件事,把选型和配置全帮你做完了。 yt-dlp 提字幕,twitter-cli 搜帖子,xhs-cli 抓小红书,装好以后 Agent 自己调,不经中间层。哪块不好用随时换。 零配置直接跑的有网页、YouTube、RSS、公众号、微博、V2EX。不用记命令,直接说需求,Agent 自己知道走哪。 >安装方法: 跟你的大模型说: 帮我安装 Agent Reach https://t.co/VF5Ok0k4LB
抄了些 sndk,主要仓位目前就是 sk海力士 和 sndk,我自己觉得短期还没结束,nand终端一直在涨价,闪迪作为纯 nand 厂商受益最明显。我应该会持有到七月份结束,除非有大的变化。 虽然我目前是存储的多头,但同样一直在思考这波大行情何时会结束。因为商业是有定律和常识的,目前的结构明显违背了商业规律。 1. 所有的钱都被上游的存储厂商和芯片厂商赚走了,这不合理但一直在发生。 一般在产业革命发生的早期会出现这种情况,可以参考工业革命早期钢铁厂赚了大部分的钱,互联网早期思科赚了大部分的钱,但这都不可持续。 2. 美股科技巨头(谷歌、亚马逊、meta、微软)最新季度的 capex 都已经要把 ocf 吃完了,所以不得不发股/债融资来继续买硬件。 巨头们已经身在囚徒困境里,必须要以现金换取发展速度和安全空间,虽然要牺牲现金流。假设 capex 明年预期出现下调,存储股同样会迎来大的调整,即使存储厂商已经通过���单预付款等形式锁定了订单。 3. 下游还没有真正开始赚钱,Anthropic和openai 的 ARR 如果增速开始不符合预期,也会导致出现大的调整。 问题在于,以现在的发展路线来看,存储这玩意就是绕不开的,目前看起来无解。 不像互联网,轻资产、边际成本递减。反而有点像房地产,多一个用户就得多盖一间房子,而且你得融资提前开始盖房子,如果房子一直稀缺,那房价就会继续上涨,等什么时候买房人的现金流/债务出现问题,房价也就崩了。
OpenAI 把 Codex 项目的 AGENTS.md 公开在 GitHub 了! 这是他们 Rust 代码库(codex-rs)的内部开发守则,干货密度极高,包含代码风格、模块治理、测试策略、App-server API 设计、Model Context 管理等。 强烈推荐所有做 Rust + AI Infra 的人细读。 https://t.co/i8UMv7rK9S
Unsloth 团队太恐怖了🔥🔥🔥 他们居然用一种叫 1-bit 压缩的极端技术,把来自中国的顶级开源模型GLM 5.2 用一种叫 1-bit 压缩的极端技术进行了优化,并转换成轻量级的 GGUF 格式。 这意味着你可以完全在本地(Locally)运行GLM5.2(256G内存的Mac Studio),不需要任何互联网连接或外部服务器,而且速度超棒,达到了 21 个 token 每秒(人类说话大概十几token每秒)。 他们还不满足于此,他们还搞了个直播,把这个压缩的本地模型放到对决中,直接面对世界上最强大、最昂贵的付费云服务器 Claude 4.8 Opus 和 GPT-5.5。 让评论区的开发者们最震惊的一点是,这个本地模型竟然能与价值数十亿美元的服务器势均力敌,给出了非常智能且精准的回答,完全能媲美这些闭源巨头。 今天真正的赢家不是某个模型,而是本地运行的概念: 1️⃣从现在起,你的数据在设备上 100% 安全 2️⃣你的 API 账单成本为零美元,而且智能水平能与美国最强公司一较高下 多么疯狂但革命性的方法🔥

OōEli.eth
这篇Codex深度教程讲的确实非常细!我最近也在学,其中很多步骤都对我帮助很大,推荐给大家看一看。🤠
Est. 1.9K views for your reply