AI大基建时代：万亿美元算力竞赛的底层逻辑

本文将系统梳理AI大基建时代的产业现状与发展路径，深入解析芯片、PCB、光模块、交换机、散热系统、电力系统等核心环节的角色、竞争格局与商业逻辑，并回答一个所有投资者都关心的问题：当前的AI大基建，究竟是泡沫，还是必要投入？

一、万亿投资浪潮：数字背后的真实逻辑

2025年，由OpenAI、软银和甲骨文共同发起的”星际之门”（Stargate）项目正在加速落地——这是一座专为OpenAI大模型训练与推理而建的AI超级数据中心，计划总投资5000亿美元，相当于泰国一年的GDP。

但星际之门只是冰山一角。据预测，2025年北美五大科技巨头的资本支出总额将达到约4100亿美元，到2026年将进一步增长至6900亿美元。

这些数字不只是资本市场的想象，它们是产业链上游企业的真实收入：

英伟达收入从2023年初的约1860亿元人民币，飙升至2026年初的约1.49万亿元
AI服务器代工厂商纬颖科技收入两三年内翻了四倍
交换机、光模块、存储芯片、PCB等各环节核心企业业绩均实现显著增长

这种增长的可持续性从何而来？答案藏在需求端。

以亚马逊为例，其2025年资本开支预计达1310亿美元，2026年将增至2000亿美元。更关键的是，亚马逊已签订但未确认收入的算力租赁订单高达2440亿美元，微软和甲骨文更分别达到6250亿和5530亿美元。这意味着只要云服务商建好数据中心，收入几乎可以立即锁定。

新兴算力租赁运营商Core Weave的成长轨迹更能说明问题：2022年收入仅1亿美元，到2025年已飙升至353亿美元；另一家公司Nuvias近期也与Meta签署了一份价值270亿美元的巨额订单。

二、为何算力需求不可逆转？

要理解这场投资浪潮的底层逻辑，需要先理解大模型的运作机制。

现代AI大模型之所以”聪明”，是因为人类将几千年积累的知识——代码、图片、视频——喂给了它。模型通过吸收这些海量知识，构建出数以千万亿计的逻辑参数，这些参数决定了模型的智能程度。参数量越大，逻辑颗粒度越精细，模型就越能理解反讽、进行复杂数学推理、乃至编写严谨的底层代码。

大模型的算力消耗分为两个阶段：

训练阶段：模型吸收海量知识、不断调整万亿参数的过程，对GPU算力要求极高。从GPT-3到GPT-4再到GPT-5，每一代模型的计算需求几乎以十倍乃至百倍的速度增长。这已经不是软件优化的问题，而是一场纯粹的物理资源消耗战。

推理阶段：模型上线后为用户提供服务的阶段，才是真正的”需求黑洞”。训练一个大型模型可能需要10万颗GPU连续运行三个月；但一旦上线服务全球数亿用户，每一次对话、每一段视频或代码的生成，都在持续消耗GPU资源。

对于科技巨头而言，在AGI竞赛中，第二名与最后一名之间的差距微乎其微。如果OpenAI研发出GPT-5，而竞争对手停滞不前，现有的搜索、社交和广告业务可能一夜之间被颠覆。对于云服务商而言，算力是这个时代的”土地储备”——不提前布局，两年后可能连入场券都没有。

结论：北美科技巨头大规模投资AI基础设施，并非泡沫，而是开启新一轮科技革命的必要投入。

三、解剖算力机器：从一台服务器到整个数据中心

单台服务器的内部构造

一台价值超过200万元人民币的英伟达DGX H100服务器，其内部集成了：

8块英伟达H100 GPU芯片（由台积电顶级封装技术制造）
每块GPU周围焊接6片SK海力士HBM高带宽存储芯片
主板嵌入4块英伟达NVSwitch交换芯片，实现八块GPU间的无延迟内部通信
2块英特尔至强CPU芯片 + 2TB系统内存，通过PCIe数据线连接
服务器背部安装10张英伟达高速网卡，连接光模块对外通信
所有芯片和组件均安装在高性能PCB板上

在这套架构中，CPU负责从固态硬盘中检索训练数据，通过PCIe不断调度至GPU进行计算；GPU完成计算后，再通过网卡和光模块将结果传输出去。

数据中心的网络架构

单台服务器只是起点。在数据中心内，数十万张GPU需要高效协同——这依赖于一套分层的网络基础设施：

接入层交换机（ToR Switch）：如同小区门口的集散中心，将同一机柜内的服务器数据汇聚后接入主干。左侧连接多模光纤（浅蓝色，连接服务器网卡），右侧连接单模光纤（黄色，对接上层交换机）。

汇聚层交换机（Spine Switch）：独立放置于网络机柜，作为超级中枢，将成百上千个机柜的接入层交换机汇聚，最终将孤立的机柜连成一个庞大的算力集群。

无论是多模还是单模光纤，均通过末端的光模块进行连接。

散热：被忽视的瓶颈

以H100服务器为例，满载功耗达10千瓦（即每小时10度电）。若采用传统风冷，一个2米高的机柜散热极限下最多容纳4台服务器。

马斯克旗下xAI数据中心给出了解决方案：通过定制纯液冷方案，直接去掉风冷散热系统，将英伟达标准服务器厚度压缩一半，使得单个机柜可容纳8台服务器、共64张H100芯片。液冷技术不仅解决了散热问题，更将数据中心的物理空间压缩了一半，为云厂商节省了大量建设成本。

四、NVL72：一场彻底的架构革命

从H100到GB300的形态重构

英伟达2025年5月量产的最新机柜GB300 NVL72，标志着AI算力架构的根本性转变。

H100时代，一个标准机柜内本质上是4到8台相对独立的服务器叠放，搭载32到64块GPU。到了NVL72，这种传统服务器边界被彻底打散——整个机柜重构为两个核心部分：

9个交换机托盘（位于机柜中央）
18个计算托盘（分布于上下两侧，可像抽屉一样拉出，可维护性极高）

计算托盘内部同样发生了质变：主板主角从英特尔/AMD的CPU，全部替换为英伟达自家的Grace CPU。通过先进封装技术，CPU与Blackwell GPU被直接整合，物理距离几乎达到极限。同时新增了DPU（负责安全调度等辅助工作）和ConnectX网卡（负责高速数据进出），将所有网络相关负担拦截在外，让CPU和GPU专注于计算本身。

每个计算托盘包含：4块GPU + 4块网卡 + 2块CPU + 2块DPU，算力托盘中的核心硬件几乎清一色来自英伟达。

Scale Up vs Scale Out：理解NVL72的核心突破

要理解NVL72的革命性，需要先区分两个关键概念：

Scale Out：增加节点数量，通过网络协议通信。人多但沟通成本高，本质是集群。
Scale Up：通过物理级内存共享，使所有单元融合为一个超级大脑，实现零延迟通信，本质是”单体显卡”。

对于参数量庞大的AI大模型，Scale Up的超级大脑是最理想状态。然而H100时代，Scale Up上限基本被限制在8张GPU。一个机柜内64张卡，实际上被分为8组小集群，组间通信仍依赖网卡、光模块和光纤交换机，不仅成本高，光电转换带来的延迟在大模型训练中还会被不断放大。

NVL72的突破：英伟达放弃了机柜内部的光通信，改用大规模铜互联。核心是一块重达约70斤的NVLink Spine背板，由5000多根铜连接组成的高密度互联系统。9个交换机托盘和18个计算托盘插入背板后，72张GPU通过铜线直接连为一体，Scale Up从8卡扩展至72卡级别，带宽可达130TB/s。

这72张GPU对大型模型而言，就如同一张超大规模的单体GPU。

机柜外的Scale Out

单个NVL72还不够。在机柜顶部，英伟达预设了CPU交换机托盘，可将8台NVL72进一步绑定，形成拥有约576张GPU的超级节点。超级节点内部通信仍走NVLink体系，保持低延迟和高带宽。

一旦突破单个节点，就必须回到传统网络——1.6T光模块、长距离光纤以及InfiniBand或以太网交换机。一个40万卡的数据中心由数百个超级节点组成，节点间需要持续进行参数同步、梯度交换和结果汇总，外部网络的规模和规格要求极为严苛。

五、供应链重构：英伟达税与巨头反击

英伟达的系统级垄断

NVL72彻底改变了供应链格局。在此之前，CPU、存储芯片、网络设备、服务器代工厂等作为云厂商的一级供应商，还能与英伟达并驾齐驱。在NVL72时代，云厂商要获取最强算力，就必须同时购买英伟达的GPU、CPU、网络设备，甚至接受英伟达的机柜标准。

以星际之门首期40万卡项目为例（总投资1000亿美元）：

《金融时报》报道甲骨文向英伟达下达了约400亿美元的GB200 GPU采购订单，以英伟达约55%的净利率计算，仅此一单就能带来超过200亿美元的纯利润
高盛研报指出，GPU、HBM存储等算力芯片系统约占硬件支出的70%
网络设备（交换机、光模块、光纤）占15%～20%（40万卡数据中心保守估计需80万至120万支1.6T光模块，超过600万条光纤线缆）
电气设备与散热系统占约10%（40万卡总功耗达1.2吉瓦，相当于一座中等城市的用电量）

这种深度的生态绑定意味着数据中心大量资本开支都流入英伟达，极大压缩了云巨头的利润空间。

云巨头的两条反击路线

面对高昂的”英伟达税”，微软、谷歌、Meta等并未坐以待毙，他们的反击集中在两个方向：

方向一：自研算力芯片

谷歌TPU、微软Maya等ASIC定制芯片，放弃GPU复杂的通用计算功能，专注于AI矩阵运算。虽然通用性不及英伟达，但在特定AI任务上成本更低、能耗更小。云服务商正试图用这些自研芯片承担大量推理任务和部分训练任务，以减少对英伟达的依赖。

方向二：开源互联标准联盟

2024年，由AMD、英特尔、博通、微软、Meta等组成的联盟推出了UALink开源协议标准，目标直指打破NVLink在算力节点内部互联的垄断地位——希望创建全行业通用的连接标准，使不同品牌芯片能通过博通、思科等第三方网络设备互联。

目前，这场竞争的结局尚不明朗。

六、不变的底层刚需

无论英伟达的高性能生态继续主导，还是开源联盟的定制架构逐渐普及，算力密度的提升和集群规模的扩大，都将必然要求：

更高带宽的通信接口（如1.6T光模块）
更高效的液冷散热方案（单机柜功耗已超120千瓦，风冷彻底退出历史舞台）
更高端的PCB承载主板（更多层数、更先进材料）
更稳定的电力供应系统

精准定位这些处于刚需环节的核心卖方，是把握AI基础设施建设浪潮的核心逻辑。

结语

从一台服务器到一个机柜，从一个超级节点到40万卡的星际之门，AI大基建的本质是一场以物理资源为底座的智能竞赛。英伟达正从GPU供应商演变为系统级基础设施供应商，而整个产业链——光模块、交换机、液冷、PCB、HBM——都在这场竞赛中被重塑。

这场竞赛远未到终点。接下来，我们将深入分析算力中心的九大核心硬件赛道，揭示谁能在AI基础设施建设浪潮中获得最大收益。

免责声明：本文基于公开互联网信息整理与原创加工，相关内容版权归原作者所有。部分素材及内容由AI大模型辅助生成，并经过人工审核与校对，但不排除存在偏差或遗漏。鉴于技术与市场变化较快，文中涉及的工具、参数及观点仅供参考，不构成任何投资或决策建议。