AI大基建时代:万亿美元算力竞赛的底层逻辑

本文将系统梳理AI大基建时代的产业现状与发展路径,深入解析芯片、PCB、光模块、交换机、散热系统、电力系统等核心环节的角色、竞争格局与商业逻辑,并回答一个所有投资者都关心的问题:当前的AI大基建,究竟是泡沫,还是必要投入?


一、万亿投资浪潮:数字背后的真实逻辑

2025年,由OpenAI、软银和甲骨文共同发起的”星际之门”(Stargate)项目正在加速落地——这是一座专为OpenAI大模型训练与推理而建的AI超级数据中心,计划总投资5000亿美元,相当于泰国一年的GDP。

AI大基建时代:万亿美元算力竞赛的底层逻辑

但星际之门只是冰山一角。据预测,2025年北美五大科技巨头的资本支出总额将达到约4100亿美元,到2026年将进一步增长至6900亿美元

这些数字不只是资本市场的想象,它们是产业链上游企业的真实收入:

  • 英伟达收入从2023年初的约1860亿元人民币,飙升至2026年初的约1.49万亿元
  • AI服务器代工厂商纬颖科技收入两三年内翻了四倍
  • 交换机、光模块、存储芯片、PCB等各环节核心企业业绩均实现显著增长

这种增长的可持续性从何而来?答案藏在需求端。

以亚马逊为例,其2025年资本开支预计达1310亿美元,2026年将增至2000亿美元。更关键的是,亚马逊已签订但未确认收入的算力租赁订单高达2440亿美元,微软和甲骨文更分别达到6250亿5530亿美元。这意味着只要云服务商建好数据中心,收入几乎可以立即锁定。

新兴算力租赁运营商Core Weave的成长轨迹更能说明问题:2022年收入仅1亿美元,到2025年已飙升至353亿美元;另一家公司Nuvias近期也与Meta签署了一份价值270亿美元的巨额订单。


二、为何算力需求不可逆转?

要理解这场投资浪潮的底层逻辑,需要先理解大模型的运作机制。

现代AI大模型之所以”聪明”,是因为人类将几千年积累的知识——代码、图片、视频——喂给了它。模型通过吸收这些海量知识,构建出数以千万亿计的逻辑参数,这些参数决定了模型的智能程度。参数量越大,逻辑颗粒度越精细,模型就越能理解反讽、进行复杂数学推理、乃至编写严谨的底层代码。

大模型的算力消耗分为两个阶段:

训练阶段:模型吸收海量知识、不断调整万亿参数的过程,对GPU算力要求极高。从GPT-3到GPT-4再到GPT-5,每一代模型的计算需求几乎以十倍乃至百倍的速度增长。这已经不是软件优化的问题,而是一场纯粹的物理资源消耗战。

推理阶段:模型上线后为用户提供服务的阶段,才是真正的”需求黑洞”。训练一个大型模型可能需要10万颗GPU连续运行三个月;但一旦上线服务全球数亿用户,每一次对话、每一段视频或代码的生成,都在持续消耗GPU资源。

对于科技巨头而言,在AGI竞赛中,第二名与最后一名之间的差距微乎其微。如果OpenAI研发出GPT-5,而竞争对手停滞不前,现有的搜索、社交和广告业务可能一夜之间被颠覆。对于云服务商而言,算力是这个时代的”土地储备”——不提前布局,两年后可能连入场券都没有。

结论:北美科技巨头大规模投资AI基础设施,并非泡沫,而是开启新一轮科技革命的必要投入。


三、解剖算力机器:从一台服务器到整个数据中心

单台服务器的内部构造

一台价值超过200万元人民币的英伟达DGX H100服务器,其内部集成了:

  • 8块英伟达H100 GPU芯片(由台积电顶级封装技术制造)
  • 每块GPU周围焊接6片SK海力士HBM高带宽存储芯片
  • 主板嵌入4块英伟达NVSwitch交换芯片,实现八块GPU间的无延迟内部通信
  • 2块英特尔至强CPU芯片 + 2TB系统内存,通过PCIe数据线连接
  • 服务器背部安装10张英伟达高速网卡,连接光模块对外通信
  • 所有芯片和组件均安装在高性能PCB板

在这套架构中,CPU负责从固态硬盘中检索训练数据,通过PCIe不断调度至GPU进行计算;GPU完成计算后,再通过网卡和光模块将结果传输出去。

数据中心的网络架构

单台服务器只是起点。在数据中心内,数十万张GPU需要高效协同——这依赖于一套分层的网络基础设施:

接入层交换机(ToR Switch):如同小区门口的集散中心,将同一机柜内的服务器数据汇聚后接入主干。左侧连接多模光纤(浅蓝色,连接服务器网卡),右侧连接单模光纤(黄色,对接上层交换机)。

汇聚层交换机(Spine Switch):独立放置于网络机柜,作为超级中枢,将成百上千个机柜的接入层交换机汇聚,最终将孤立的机柜连成一个庞大的算力集群。

无论是多模还是单模光纤,均通过末端的光模块进行连接。

散热:被忽视的瓶颈

以H100服务器为例,满载功耗达10千瓦(即每小时10度电)。若采用传统风冷,一个2米高的机柜散热极限下最多容纳4台服务器

马斯克旗下xAI数据中心给出了解决方案:通过定制纯液冷方案,直接去掉风冷散热系统,将英伟达标准服务器厚度压缩一半,使得单个机柜可容纳8台服务器、共64张H100芯片。液冷技术不仅解决了散热问题,更将数据中心的物理空间压缩了一半,为云厂商节省了大量建设成本。


四、NVL72:一场彻底的架构革命

从H100到GB300的形态重构

英伟达2025年5月量产的最新机柜GB300 NVL72,标志着AI算力架构的根本性转变。

H100时代,一个标准机柜内本质上是4到8台相对独立的服务器叠放,搭载32到64块GPU。到了NVL72,这种传统服务器边界被彻底打散——整个机柜重构为两个核心部分:

  • 9个交换机托盘(位于机柜中央)
  • 18个计算托盘(分布于上下两侧,可像抽屉一样拉出,可维护性极高)

计算托盘内部同样发生了质变:主板主角从英特尔/AMD的CPU,全部替换为英伟达自家的Grace CPU。通过先进封装技术,CPU与Blackwell GPU被直接整合,物理距离几乎达到极限。同时新增了DPU(负责安全调度等辅助工作)和ConnectX网卡(负责高速数据进出),将所有网络相关负担拦截在外,让CPU和GPU专注于计算本身。

每个计算托盘包含:4块GPU + 4块网卡 + 2块CPU + 2块DPU,算力托盘中的核心硬件几乎清一色来自英伟达。

Scale Up vs Scale Out:理解NVL72的核心突破

要理解NVL72的革命性,需要先区分两个关键概念:

  • Scale Out:增加节点数量,通过网络协议通信。人多但沟通成本高,本质是集群。
  • Scale Up:通过物理级内存共享,使所有单元融合为一个超级大脑,实现零延迟通信,本质是”单体显卡”。

对于参数量庞大的AI大模型,Scale Up的超级大脑是最理想状态。然而H100时代,Scale Up上限基本被限制在8张GPU。一个机柜内64张卡,实际上被分为8组小集群,组间通信仍依赖网卡、光模块和光纤交换机,不仅成本高,光电转换带来的延迟在大模型训练中还会被不断放大。

NVL72的突破:英伟达放弃了机柜内部的光通信,改用大规模铜互联。核心是一块重达约70斤的NVLink Spine背板,由5000多根铜连接组成的高密度互联系统。9个交换机托盘和18个计算托盘插入背板后,72张GPU通过铜线直接连为一体,Scale Up从8卡扩展至72卡级别,带宽可达130TB/s

这72张GPU对大型模型而言,就如同一张超大规模的单体GPU。

机柜外的Scale Out

单个NVL72还不够。在机柜顶部,英伟达预设了CPU交换机托盘,可将8台NVL72进一步绑定,形成拥有约576张GPU的超级节点。超级节点内部通信仍走NVLink体系,保持低延迟和高带宽。

一旦突破单个节点,就必须回到传统网络——1.6T光模块、长距离光纤以及InfiniBand或以太网交换机。一个40万卡的数据中心由数百个超级节点组成,节点间需要持续进行参数同步、梯度交换和结果汇总,外部网络的规模和规格要求极为严苛。


五、供应链重构:英伟达税与巨头反击

英伟达的系统级垄断

NVL72彻底改变了供应链格局。在此之前,CPU、存储芯片、网络设备、服务器代工厂等作为云厂商的一级供应商,还能与英伟达并驾齐驱。在NVL72时代,云厂商要获取最强算力,就必须同时购买英伟达的GPU、CPU、网络设备,甚至接受英伟达的机柜标准。

以星际之门首期40万卡项目为例(总投资1000亿美元):

  • 《金融时报》报道甲骨文向英伟达下达了约400亿美元的GB200 GPU采购订单,以英伟达约55%的净利率计算,仅此一单就能带来超过200亿美元的纯利润
  • 高盛研报指出,GPU、HBM存储等算力芯片系统约占硬件支出的70%
  • 网络设备(交换机、光模块、光纤)占15%~20%(40万卡数据中心保守估计需80万至120万支1.6T光模块,超过600万条光纤线缆)
  • 电气设备与散热系统占约10%(40万卡总功耗达1.2吉瓦,相当于一座中等城市的用电量)

这种深度的生态绑定意味着数据中心大量资本开支都流入英伟达,极大压缩了云巨头的利润空间。

云巨头的两条反击路线

面对高昂的”英伟达税”,微软、谷歌、Meta等并未坐以待毙,他们的反击集中在两个方向:

方向一:自研算力芯片

谷歌TPU、微软Maya等ASIC定制芯片,放弃GPU复杂的通用计算功能,专注于AI矩阵运算。虽然通用性不及英伟达,但在特定AI任务上成本更低、能耗更小。云服务商正试图用这些自研芯片承担大量推理任务和部分训练任务,以减少对英伟达的依赖。

方向二:开源互联标准联盟

2024年,由AMD、英特尔、博通、微软、Meta等组成的联盟推出了UALink开源协议标准,目标直指打破NVLink在算力节点内部互联的垄断地位——希望创建全行业通用的连接标准,使不同品牌芯片能通过博通、思科等第三方网络设备互联。

目前,这场竞争的结局尚不明朗。


六、不变的底层刚需

无论英伟达的高性能生态继续主导,还是开源联盟的定制架构逐渐普及,算力密度的提升和集群规模的扩大,都将必然要求:

  • 更高带宽的通信接口(如1.6T光模块)
  • 更高效的液冷散热方案(单机柜功耗已超120千瓦,风冷彻底退出历史舞台)
  • 更高端的PCB承载主板(更多层数、更先进材料)
  • 更稳定的电力供应系统

精准定位这些处于刚需环节的核心卖方,是把握AI基础设施建设浪潮的核心逻辑。


结语

从一台服务器到一个机柜,从一个超级节点到40万卡的星际之门,AI大基建的本质是一场以物理资源为底座的智能竞赛。英伟达正从GPU供应商演变为系统级基础设施供应商,而整个产业链——光模块、交换机、液冷、PCB、HBM——都在这场竞赛中被重塑。

这场竞赛远未到终点。接下来,我们将深入分析算力中心的九大核心硬件赛道,揭示谁能在AI基础设施建设浪潮中获得最大收益。

 

免责声明:本文基于公开互联网信息整理与原创加工,相关内容版权归原作者所有。部分素材及内容由AI大模型辅助生成,并经过人工审核与校对,但不排除存在偏差或遗漏。鉴于技术与市场变化较快,文中涉及的工具、参数及观点仅供参考,不构成任何投资或决策建议。
AI正在重写大学专业版图:哪些专业在消失,哪些在新生?
上一篇 2天前
《AI 裁员陷阱》The AI Layoff Trap
下一篇 2026年 4月 29日 15:56

发表回复

登录后才能评论