AI 芯片格局与算力经济学

截至 2026-02 | Maurice | 灵阙学院


一、行业背景

AI 算力需求以每年 4-5 倍的速度增长,远超摩尔定律所能提供的晶体管密度提升。训练一个万亿参数级模型的成本已从 2023 年的数千万美元攀升至 2025 年的数亿美元量级。芯片供应链、封装技术和能耗约束共同构成了"算力三角困境":性能、成本、功耗三者难以同时最优。

理解芯片格局不仅是技术问题,更是战略投资决策的核心输入。本文从芯片产品对比、训练与推理成本模型、云 GPU 定价、中国芯片生态四个维度展开分析。


二、主流 AI 芯片产品矩阵

2.1 旗舰产品参数对比

维度 NVIDIA H100 NVIDIA B200 NVIDIA GB200 AMD MI300X Google TPU v5p Groq LPU Cerebras WSE-3
制程 4nm 4nm 4nm (GPU+CPU) 5nm/6nm 定制 14nm 7nm TSMC
FP16 算力 ~1980 TFLOPS ~4500 TFLOPS ~5000 TFLOPS ~1300 TFLOPS ~459 TFLOPS/chip ~750 TFLOPS ~125 PF (整片)
HBM 容量 80GB HBM3 192GB HBM3e 384GB (双芯) 192GB HBM3 95GB HBM2e 230MB SRAM 44GB on-chip
内存带宽 3.35 TB/s ~8 TB/s ~16 TB/s 5.3 TB/s 2.76 TB/s 80 TB/s (SRAM) 21 PB/s (on-chip)
TDP 700W ~1000W ~2700W (模块) 750W N/A 300W 23kW (系统)
互联 NVLink 4 NVLink 5 NVLink 5 + Grace Infinity Fabric ICI 定制 Mesh On-wafer
上市时间 2023 Q1 2024 Q4 2025 Q1 2023 Q4 2023 Q4 2024 Q1 2024 H2

2.2 架构差异化定位

厂商 核心优势 核心短板 适用场景
NVIDIA 软件生态 (CUDA)、全栈优化 价格溢价高、供货紧张 通用训练 + 推理全场景
AMD 性价比、HBM 容量大 ROCm 生态成熟度不足 大模型推理、HPC
Google TPU 与 GCP/JAX 深度集成 仅限 Google Cloud 自研模型训练 (Gemini)
Groq 推理延迟极低 (SRAM 直访) 无法训练、容量受限 实时推理、低延迟场景
Cerebras 单片即集群、无通信开销 生态封闭、采购门槛高 超大模型训练研究

三、训练 vs 推理成本模型

3.1 训练成本公式

训练成本的核心公式为:

训练成本 = (6 * N * D) / (GPU数 * GPU算力 * MFU) * 单GPU小时价格

其中 N = 参数量,D = 训练 token 数,MFU = 模型算力利用率(通常 30%-55%)。

3.2 典型模型训练成本估算

模型规模 参数量 训练 Tokens GPU 类型 GPU 数量 训练时长 估算总成本
7B (基线) 7B 2T H100 128 ~7 天 $150K-$250K
70B (中型) 70B 15T H100 2048 ~30 天 $5M-$10M
405B (Llama 3.1) 405B 15T H100 16384 ~54 天 $60M-$100M
1T+ (前沿) 1T+ 30T+ GB200 32768+ ~90 天 $300M-$500M

3.3 推理成本结构

推理成本的关键变量不同于训练,主要由吞吐量和延迟要求决定:

成本因素 训练 (占比) 推理 (占比)
GPU 算力 60%-70% 30%-40%
内存带宽 15%-20% 40%-50%
网络互联 10%-15% 5%-10%
电力冷却 5%-10% 10%-15%

推理阶段是"内存带宽受限"(memory-bound),而训练阶段是"计算受限"(compute-bound)。这意味着推理芯片的设计重心与训练芯片截然不同。


四、云 GPU 定价对比

4.1 主流云厂商 H100 实例价格(按需/小时,截至 2026-02)

云厂商 实例类型 GPU 数量 按需价格 ($/hr) 1年预留 ($/hr) 3年预留 ($/hr)
AWS p5.48xlarge 8x H100 ~$98 ~$65 ~$45
Azure ND H100 v5 8x H100 ~$96 ~$62 ~$43
GCP a3-highgpu-8g 8x H100 ~$99 ~$66 ~$46
Lambda gpu_8x_h100 8x H100 ~$78 ~$55 N/A
CoreWeave HGX H100 8x H100 ~$72 ~$50 ~$38
Together AI 按 Token N/A ~$0.9/M tok N/A N/A

4.2 性价比排序与选型建议

场景 推荐选择 理由
短期实验 (<1周) Lambda / CoreWeave 按需价格最低
中期训练 (1-6月) CoreWeave 预留 预留折扣 + 可用性好
长期生产推理 AWS/Azure 预留 企业级 SLA + 全球节点
学术/创业 GCP (TPU Research) TPU Research Cloud 有免费额度

五、中国 AI 芯片生态

5.1 核心玩家

厂商 旗舰产品 制程 FP16 算力 HBM 定位
华为昇腾 Ascend 910C 7nm (推测) ~640 TFLOPS 128GB HBM2e 国产替代主力
寒武纪 思元 590 7nm ~512 TFLOPS 96GB HBM2e 推理加速
海光 深算一号 7nm (类 AMD) ~300 TFLOPS 64GB HBM2e HPC + 推理
壁仞 BR100 7nm ~1000 TFLOPS (标称) 64GB 通用 GPU (受制裁影响)
摩尔线程 MTT S4000 12nm ~200 TFLOPS 32GB GDDR6X 推理 + 图形

5.2 供应链约束分析

约束维度 现状 影响评估
先进制程 7nm 可用 (中芯/华为),5nm 受限 性能落后 1-2 代
HBM 供应 依赖三星/SK 海力士,受出口管制 容量/带宽瓶颈
EDA 工具 国产替代进行中,尚不成熟 设计效率受限
互联技术 NVLink 无替代,自研 HCCS 进展中 集群扩展受限
软件生态 CANN vs CUDA,生态差距显著 迁移成本高

六、总拥有成本 (TCO) 分析框架

6.1 TCO 构成

成本项 占比 (自建) 占比 (云租) 说明
GPU 硬件 50%-60% N/A (含在租金) 折旧 3-5 年
电力 + 冷却 15%-25% N/A PUE 1.1-1.4
网络 + 存储 5%-10% 10%-15% NVLink/IB + NVMe/对象存储
人力 (MLOps) 10%-15% 5%-10% 运维团队
云实例租金 N/A 70%-80% 含硬件折旧 + 电力
数据传输 <5% 5%-10% Egress 费用

6.2 自建 vs 云租决策矩阵

因素 倾向自建 倾向云租
GPU 利用率 >70% 持续负载 <40% 或波动大
投资周期 >3 年 <1 年或不确定
团队能力 有 MLOps/Infra 团队 无专职运维
合规要求 数据不出境 无特殊要求
规模 >1000 GPU <100 GPU
年化成本差 自建便宜 30%-50% 云租更灵活

七、趋势判断与投资启示

  1. GB200 超级节点将成为 2026 训练标配:NVLink 5 的 1.8TB/s 双向带宽使 72-GPU NVL72 机柜成为新的原子训练单元,传统 8-GPU 节点的通信瓶颈被大幅缓解。

  2. 推理芯片进入"百花齐放"阶段:Groq、Cerebras、AWS Inferentia3、Google TPU 推理模式各有优势,NVIDIA 的推理垄断正在被打破。

  3. 中国芯片"可用但不够好":华为昇腾 910C 在 7B-70B 模型训练中已具备实战能力,但在 400B+ 级别模型训练中仍面临互联和软件生态瓶颈。

  4. 能效比成为下一代芯片的核心指标:数据中心电力供应已成为 AI 算力扩张的物理瓶颈,TFLOPS/W 将取代 TFLOPS 成为选型首要指标。

  5. Token 经济学驱动推理成本持续下降:竞争加剧叠加量化/蒸馏/投机解码等技术优化,推理 API 价格每 12 个月下降约 50%-70%。


八、参考数据来源说明

本文数据综合自各芯片厂商官方 spec sheet、云厂商定价页面、SemiAnalysis / TechInsights 行业分析报告,以及公开的模型训练日志。具体价格和参数可能因时间、区域和合约条款而有差异,建议以采购时的实际报价为准。


Maurice | maurice_wen@proton.me