全球AI算力中心那万亿美元级别的硬件投资,超过70%流进了同一块主板上的巨头口袋。这块主板,就是整个AI产业的心脏——算力芯片系统。
但吃下这块蛋糕的过程,远不是一团和气。英伟达、云厂商、芯片大厂、存储巨头之间的博弈,精彩程度不亚于任何一部商战剧。本文将彻底拆解算力芯片、CPU、存储芯片这三大核心模块的真实竞争格局,看懂了这场博弈,才能真正看透AI行业的发展趋势和资本流向。
一、先搞清楚这台”算力工厂”的基本构造
在深入竞争格局之前,先搞清楚一件事:这块算力主板上,到底住着哪些角色?
用一个工厂来类比,最直观:
算力芯片(GPU或ASIC)= 工人,负责承担大模型海量数据的实际计算,是最核心的生产力。
高带宽存储HBM = 搬运工,工人再快,旁边没人递砖头也白搭。传统内存传输速度太慢,GPU算完一批数据就得干等,这就是业界常说的”内存墙”。HBM的解决方案粗暴而有效——直接把存储芯片贴在GPU旁边,以最快的速度持续投喂数据。
CPU = 包工头,负责统筹调度整个数据流向,管理指令分发。
除了这铁三角,还有两个容易被忽视但不可或缺的角色:
系统内存DDR5 = 前置中转室。数据不能从硬盘直接塞给GPU,必须先在系统内存里完成清洗和预处理。
企业级固态硬盘ESSD = 大仓库,存放海量训练数据、向量数据库和知识库。固态硬盘还有一个救命的作用——一旦训练过程中断或宕机,必须在几秒内保存当前进度,否则几百万美元的训练电费直接打水漂。
工人、搬运工、包工头、中转室、大仓库——这就是目前最标准的算力系统构成。
二、算力芯片:英伟达的垄断帝国与云厂商的反击战
训练 vs 推理:两个完全不同的战场
理解算力芯片的竞争格局,必须先把训练和推理这两个市场分开看,因为它们的技术要求、成本结构和竞争格局完全不同。
训练,是让模型从数据中学习参数的过程,简单说就是”造模型”。它对芯片的要求极高——超大显存、极强的多卡互联能力,是整个算力需求金字塔的顶端。
推理,是模型训练完成后对外提供服务的过程,简单说就是”用模型”。由于底层算法架构已经稳定,推理对芯片的要求没有训练那么严苛,更看重的是成本够不够低、响应延迟够不够短。
英伟达:近乎绝对的训练市场垄断
根据2025年的数据,全球训练市场英伟达占比超过90%,接近完全垄断。第二名AMD仅有3%到5%,英特尔不足1%,国产芯片在海外市场几乎可以忽略不计。
即便在受到高端GPU出口管制的国内训练市场,英伟达仍占约60%的份额。华为昇腾约25%,寒武纪约5%,海光约3%,其余由平头哥、昆仑芯等瓜分。国内一线大模型几乎清一色用英伟达GPU进行训练。
在全球推理市场,英伟达GPU依然主导,约占68%。AMD、英特尔以及云厂商自研ASIC芯片共同分食剩余市场。
英伟达为何能垄断?三个护城河缺一不可
第一,CUDA软件生态——AI领域的Windows系统。
CUDA是英伟达打造的一整套让GPU变得好用的软件体系。对工程师和研究人员来说,它的地位相当于AI领域的Windows。
举个例子:一个AI创业团队要开发大模型,不会从零开始,而是直接基于CUDA生态开发——因为整个AI行业十几年积累的最成熟算法、算子和工具,全部都在CUDA的生态库里。换其他芯片和软件,代码几乎得重写,遇到报错宕机可能数月都排查不出来。对于烧钱如流水的大模型团队,这种时间成本和沉没成本根本无法承受。
第二,硬件全栈系统能力。
英伟达卖的不只是GPU,而是从芯片、NVLink互联、InfiniBand网络、封装技术到集群调度的整套方案。单卡性能可能被追赶,但万卡集群的效率、稳定性、可扩展性,目前仍没有对手。
第三,极快的迭代速度。
英伟达保持近乎一年一代的迭代节奏。当竞争对手的芯片刚量产准备对标H100,英伟达的下一代更强产品已经开始交货了。黄仁勋的逻辑很简单:只要迭代速度够快,对手就只能永远跟在后面追。
云厂商的反击:两条突围路线
天下苦”英伟达税”久矣。谷歌、亚马逊、微软、Meta等云巨头绝不甘心永远做黄仁勋的打工仔,一场反击战已全面打响。
路线一:大力扶持AMD。 云厂商不仅大量采购AMD的GPU,还深度参与AMD ROCM软件生态的建设,推动主流AI框架全面支持AMD,试图在CUDA之外培育出第二套可用的生态。
路线二:联合博通、Marvell等芯片大厂,自研ASIC芯片。
很多人有个误区,以为ASIC只能做简单推理。事实上,谷歌的TPU、亚马逊的Trainium,已经开始在最烧钱的核心训练战场上与英伟达正面交锋。
原理也不复杂:英伟达的GPU本质上是通用图形处理器,内部保留了大量为图形渲染设计的通用电路。而云厂商自研的ASIC直接砍掉所有不必要的通用功能,将硅片上的每一个晶体管全部用于大模型的并行矩阵计算。在相同算力的情况下,ASIC单次计算的成本和功耗只有同级别GPU的一半。
谷歌自家的Gemini和Claude,就是用谷歌自研TPU进行训练和推理的。ChatGPT也在部分使用微软自研的Maya系列芯片。
当然,即便如此,这些云巨头仍然需要大量采购英伟达GPU——大模型的预训练、研发实验以及第三方云业务,依然离不开英伟达。对于云巨头来说,自研芯片的战略意图,除了降本增效,更是向英伟达发出一个信号:我们有备胎,你别做得太过分。
英伟达的反制:两记釜底抽薪
面对云厂商的联合反击,黄仁勋的应对同样凌厉。
第一招:2025年底,英伟达斥资200亿美元收购推理市场最炙手可热的独角兽公司Groq。 Groq的创始人Jonathan Ross,正是谷歌TPU之父——2015年他作为首席架构师设计了谷歌第一代TPU,2016年离开谷歌创立Groq。英伟达收购Groq,一举补齐了在推理市场缺乏ASIC芯片的短板,同时彻底封死了其他初创公司在推理端弯道超车的可能。
第二招:2026年3月,英伟达向Marvell战略投资20亿美元。 Marvell和博通,正是帮云厂商研发ASIC芯片的头号幕后推手。英伟达这笔投资釜底抽薪的意味十足。借助这笔投资,英伟达推出了NVLink Fusion网络架构,潜台词很清楚:云厂商不是非要造自己的ASIC吗?没关系,帮你们造芯片的Marvell现在也是我生态圈的人了。你们的算力芯片可以用自家的,但这套Scale Up网络架构你总得用吧——只要你把卡连在一起,这笔网络”过路费”照样得交。
双方的激烈博弈,客观上为ASIC芯片在推理市场砸出了巨大的成长空间。根据IDC的预测,到2028年,ASIC在推理市场的占比将从目前约10%提升至40%左右,与英伟达的差距将大幅缩小。
三、CPU:被低估的配角,正在迎来价值重估
过去两年,CPU在AI浪潮里几乎被遗忘
在爆炒GPU的狂潮里,传统CPU巨头在AI机柜中似乎只是个负责给GPU做调度的配角。从当前格局看,X86架构仍然占据绝对主导——英特尔掌握70%以上市场份额,AMD快速追赶至约20%,剩余不足10%属于ARM架构。
AI Agent时代,CPU的价值正在重新定义
CPU重新被重视的核心引爆点,是近两年快速兴起的AI Agent。
现在的Agent不再只是会聊天的模型,而是能够执行多步骤决策、调用外部工具、发邮件、订机票的智能体。一旦进入这个阶段,问题的重心就从”算得快不快”变成了”调度得聪不聪明”。复杂的串行逻辑控制,恰恰是CPU的老本行。
因此在AI时代,大模型的计算依然靠GPU和ASIC,但整个任务的指挥调度和工具调用越来越依赖强大的CPU。两者不再是谁主谁次的关系,而是深度协同。
巨头们在CPU上的动作
英伟达:黄仁勋早就看清楚了,如果GPU旁边永远搭着英特尔或AMD的CPU,数据传输通道容易被卡脖子,利润也得被别人分走一块。所以英伟达基于ARM架构推出了自家CPU,并在NVL72等顶级AI机柜中,直接用自家CPU搭配自家GPU——这等于把传统X86巨头从最赚钱的高端AI节点里直接踢出去了。
云厂商:谷歌、微软、亚马逊纷纷自研CPU,背后都有ARM公司的推波助澜。ARM现在不仅卖底层IP授权,还推出了半成品计算子系统,大幅降低了造芯门槛,让云巨头能够快速基于ARM架构攒出自己的CPU——亚马逊的Graviton、微软的Cobalt均属此类。
更值得关注的是,ARM的野心还在膨胀。根据最新消息,ARM已经不满足于只卖图纸,正在亲自找台积电代工,直接向Meta等客户销售自己品牌的AGI CPU芯片。
可以预见,在未来的AI增量市场中,英伟达的自研CPU、云厂商的定制CPU、以及ARM亲自下场制造的CPU,正在合力蚕食原本属于X86架构的蛋糕。
四、存储芯片:最卡脖子的命门,和最容易踩坑的赛道
HBM:整个算力系统里最紧缺的一环
在AI产业链里,芯片厂商和云厂商最焦虑的不是买不到GPU,而是买不到HBM。
HBM(高带宽存储)是DRAM技术的最高形态。DRAM是整个半导体行业最典型的工艺驱动型产业,这和CPU、GPU完全不同——CPU和GPU是设计驱动型,可以把制造外包给台积电。但DRAM的制造完全是手艺活,工艺窗口极窄,必须靠几十年经验慢慢积累调试,中间断一年都不行。这就是为什么全球能做HBM的只有三家公司——不是别人不想做,而是没有DRAM工艺,连上桌的资格都没有。没有百亿美元级的资本投入,也根本建不起自有工厂。
HBM市场格局极度集中:SK海力士占57%,三星约22%,美光约21%,三家完全垄断。HBM3、HBM3E、HBM4等高端产能全部集中在这三家,并且全部被纳入美国出口管制。
国内方面,长鑫存储是短期内唯一有望量产HBM的企业。目前长鑫存储跳过HBM2,完成了HBM3样品开发,计划于2026年上半年实现量产并达到80%良率目标。但受制于技术代差和地缘政治,国产HBM几乎不可能直供北美AI算力中心,主要服务于国内算力生态。
HBM的紧缺还带来了一个连锁反应:海力士和三星为抢占HBM市场,把大量原本生产普通DRAM的产能全部转向了HBM和服务器级DDR5。这就是你最近买电脑内存感觉变贵的真实原因——产能都被AI大佬们挤光了。
DDR5:同样被三巨头垄断的系统内存
系统内存DDR5是CPU和硬盘之间的中转站,负责缓存训练数据和中间结果。AI训练服务器对DDR5的需求极高,单台服务器要配备1到4TB,是普通服务器的80倍,而且必须高频低延迟,否则就会形成新的内存瓶颈。
DDR5的竞争格局与HBM如出一辙,三星、SK海力士、美光三巨头合计占据超过93%的市场份额。国内方面,长鑫存储是唯一能量产DDR5的企业,全球份额约3%至5%,主要供应国内终端推理和信创算力中心,高端训练服务器所需的高频DDR5仍依赖进口。
企业级固态硬盘ESSD:国产替代跑得最快的赛道
ESSD采用NAND闪存技术路线,与前两者的DRAM技术完全不同,是数据中心的”大仓库”,用来存储训练数据、向量数据库和知识库。
全球ESSD市场同样由巨头主导:三星约30%、SK海力士约28%、西部数据约14%、美光约10%、铠侠约12%。但相比HBM和DDR5,国产ESSD的进步是存储三大品类中最快的,在国内市占率已达20%至25%,是目前国产替代势头最好、生态最健康的细分领域。
这个市场有两类玩家:一类是”造面粉的”,即长江存储、三星、SK海力士这些上游NAND晶圆颗粒原厂;另一类是”做面包的”,即存储模组厂商,如大普微、亿恒创源、华为、江波龙、佰维存储等。模组厂的商业模式是采购上游晶圆颗粒,搭配自研或外采的主控芯片与固件算法,组装成企业级硬盘,销售给云厂商和AI服务器厂商。
这个领域鱼龙混杂,是最容易踩坑的地方。 这波存储涨价潮带动了很多模组公司业绩暴涨,但背后隐藏着一个陷阱:这种增长到底是公司囤了大量低价晶圆颗粒、靠周期涨价赚取的一次性库存差价,还是真正的底层技术驱动的可持续增长?
判断标准只有两条:第一,有没有自研企业级主控芯片和复杂固件算法的能力?第二,产品有没有实打实地进入阿里、字节、腾讯等一线云厂商的核心算力机柜? 只有同时跨过这两道门槛的,才是真正的第一梯队。
五、稳坐钓鱼台的隐形霸主:EDA、IP与台积电
算力芯片、CPU、存储芯片的竞争再激烈,也绕不开两类真正的”幕后收税者”。
EDA软件与芯片IP:造芯的图纸和工具
在大模型公司纷纷自研ASIC的浪潮里,ARM、Synopsys、Cadence这些公司正悄悄笑开了花。自研芯片不是从零发明轮子——你要造CPU,可能得买ARM的架构授权;你要设计复杂电路,必须用Synopsys的EDA软件。只要ASIC浪潮持续,这些公司就能分走第一杯最稳健的利润,而且几乎不受上游技术路线之争的影响。
台积电:AI军备竞赛中唯一不参与竞争的企业
如果把整个AI产业链比作一个金字塔,站在最顶端的是台积电。
无论是英伟达、谷歌还是特斯拉,只要想做出3纳米、2纳米的顶尖芯片,只有一个去处——排台积电的产线。台积电掌握的不仅是制程工艺,更是整个AI竞争的入场券。
在这场激烈的AI军备竞赛中,台积电可能是唯一一家不参与任何竞争的企业,因为它本身就是竞争的基础设施。
芯片制造完成后,还有一道同样卡脖子的工序——先进封装。HBM必须精准贴合在算力芯片旁边,将两块芯片封装在一起并实现高速互联,依赖的是CoWoS等先进封装技术。台积电在这一环节依然占据统治地位,但因产能极度紧缺,全球封测老大日月光以及国内的长电科技等,也在积极切入高端算力芯片的封测市场,负责把一颗颗独立的芯片封装成那块价值连城的算力主板。
结语
从GPU的霸权到云厂商的ASIC反击,从CPU的价值重估到HBM与固态硬盘的后勤博弈,再到台积电和EDA工具的底层收税——每一块算力主板的诞生,都是全球数千家顶尖企业、数百万名顶尖工程师跨越国界和技术壁垒协作的结果。
这场纳米级的博弈,正在决定未来十年全球科技竞争的终极座次。
下一篇,我们将聚焦中国企业参与度最深的环节——AI算力中心的网络设备与光模块。