AI芯片全景:从训练到推理
原创
灵阙教研团队
A 推荐 进阶 |
约 6 分钟阅读
更新于 2026-02-28 AI 导读
AI芯片全景:从训练到推理 NVIDIA/AMD/Intel/Groq/Cerebras/华为昇腾:AI加速器架构对比与选型指南 引言...
AI芯片全景:从训练到推理
NVIDIA/AMD/Intel/Groq/Cerebras/华为昇腾:AI加速器架构对比与选型指南
引言
AI芯片市场正处于前所未有的扩张期。NVIDIA凭借CUDA生态和GPU架构持续统治训练市场,但推理市场的竞争格局更加多元——AMD以性价比抢占云端份额,Groq以确定性延迟开辟新赛道,华为昇腾在国内市场快速渗透。本文将从芯片架构、性能指标、软件生态和成本效率四个维度进行系统性对比。
NVIDIA:生态垄断者
架构演进
NVIDIA GPU架构演进(AI相关)
Volta (V100, 2017)
├── Tensor Core 1.0: FP16矩阵乘法
├── 32GB HBM2, 900 GB/s
└── 训练时代开创者
Ampere (A100, 2020)
├── Tensor Core 3.0: TF32/BF16/INT8
├── 80GB HBM2e, 2 TB/s
├── Multi-Instance GPU (MIG)
└── 训练+推理双料冠军
Hopper (H100, 2023)
├── Tensor Core 4.0: FP8
├── 80GB HBM3, 3.35 TB/s
├── Transformer Engine
├── NVLink 4.0 (900 GB/s)
└── 大模型训练标配
Blackwell (B200/B300, 2025-2026)
├── 2nd Gen Transformer Engine
├── 192GB/288GB HBM3e
├── 8 TB/s+ HBM带宽
├── NVLink 5.0 (1.8 TB/s)
├── FP4推理支持
└── 推理性能4倍于H100
关键产品对比
| 指标 | A100-80GB | H100-SXM | H200-SXM | B200 |
|---|---|---|---|---|
| FP16 TFLOPS | 312 | 989 | 989 | 4,500 |
| FP8 TFLOPS | -- | 1,979 | 1,979 | 9,000 |
| INT8 TOPS | 624 | 1,979 | 1,979 | 9,000 |
| HBM容量 | 80GB | 80GB | 141GB | 192GB |
| HBM带宽 | 2.0 TB/s | 3.35 TB/s | 4.8 TB/s | 8.0 TB/s |
| TDP | 400W | 700W | 700W | 1000W |
| NVLink | 600 GB/s | 900 GB/s | 900 GB/s | 1800 GB/s |
AMD:性价比挑战者
MI300X架构特点
# AMD MI300X vs NVIDIA H100 value analysis
comparison = {
"MI300X": {
"fp16_tflops": 1307,
"hbm_capacity_gb": 192,
"hbm_bandwidth_tbs": 5.3,
"tdp_w": 750,
"estimated_price_usd": 15000,
"software_ecosystem": "ROCm (improving)",
},
"H100_SXM": {
"fp16_tflops": 989,
"hbm_capacity_gb": 80,
"hbm_bandwidth_tbs": 3.35,
"tdp_w": 700,
"estimated_price_usd": 30000,
"software_ecosystem": "CUDA (dominant)",
},
}
print("Performance per Dollar (higher = better value):")
for name, spec in comparison.items():
perf_per_dollar = spec["fp16_tflops"] / spec["estimated_price_usd"] * 1000
mem_per_dollar = spec["hbm_capacity_gb"] / spec["estimated_price_usd"] * 1000
bw_per_dollar = spec["hbm_bandwidth_tbs"] / spec["estimated_price_usd"] * 1e6
print(f"\n{name}:")
print(f" TFLOPS/$1K: {perf_per_dollar:.1f}")
print(f" GB/$1K: {mem_per_dollar:.1f}")
print(f" TB/s/$1M: {bw_per_dollar:.1f}")
ROCm软件生态现状
| 框架/工具 | CUDA支持 | ROCm支持 | 状态 |
|---|---|---|---|
| PyTorch | 原生 | 原生 | 成熟 |
| vLLM | 完整 | 完整 | 生产就绪 |
| DeepSpeed | 完整 | 大部分 | 可用 |
| TensorRT | 原生 | N/A | NVIDIA专有 |
| Triton | 原生 | 支持中 | 改善中 |
| FlashAttention | 完整 | 支持 | 可用 |
| NCCL | 原生 | RCCL替代 | 可用 |
专用推理芯片
Groq LPU
Groq LPU架构特点
核心理念: 确定性计算(Deterministic Computing)
传统GPU推理: Groq LPU推理:
┌─────────────────┐ ┌─────────────────┐
│ DRAM ←→ L2 ←→ SM │ │ 230MB SRAM │
│ │ │ (全部片上存储) │
│ 数据在内存层级 │ │ │
│ 之间来回搬运 │ │ 无外部内存 │
│ 延迟不确定 │ │ 无缓存未命中 │
└─────────────────┘ │ 确定性延迟 │
└─────────────────┘
性能特征:
片上SRAM: 230MB (无HBM)
内部带宽: ~80 TB/s (片上)
INT8: ~750 TOPS
延迟: 确定性,接近零抖动
功耗: ~300W
适用模型: <230MB权重 (约7B INT4)
或通过多卡分片支持更大模型
优势: 超低延迟(TTFT),确定性QoS
劣势: 单卡容量小,大模型需多卡
Cerebras CS-3
Cerebras Wafer-Scale Engine
传统芯片: ~800mm² (光刻极限)
Cerebras WSE-3: 46,225mm² (整个晶圆!)
┌──────────────────────────────────┐
│ │
│ 900,000 AI Cores │
│ 44GB On-chip SRAM │
│ ~20 PB/s Internal Bandwidth │
│ │
│ 单晶圆 = 整个神经网络 │
│ 无数据搬运瓶颈 │
│ │
└──────────────────────────────────┘
推理性能:
Llama 3.1 70B: ~1,800 tok/s (batch=1)
训练: 可训练万亿参数模型(weight streaming)
独特能力:
Weight Streaming: 模型权重从外部SSD流入
适合超大模型训练(内存不是瓶颈)
Intel Gaudi 3
| 指标 | Gaudi 3 | H100 | 对比 |
|---|---|---|---|
| BF16 TFLOPS | 1,835 | 989 | Gaudi +85% |
| FP8 TFLOPS | 3,670 | 1,979 | Gaudi +85% |
| HBM容量 | 128GB | 80GB | Gaudi +60% |
| HBM带宽 | 3.68 TB/s | 3.35 TB/s | 接近 |
| TDP | 900W | 700W | Gaudi +29% |
| 网络带宽 | 24x200GbE | NVLink 900GB/s | 不同架构 |
| 软件 | Synapse AI | CUDA | Gaudi较弱 |
华为昇腾:国产替代
昇腾生态
华为昇腾AI芯片谱系
训练芯片:
├── 昇腾910B: 512 TFLOPS (FP16), 64GB HBM
├── 昇腾910C: 性能提升(量产中)
└── 昇腾920(预期): 对标H100+
推理芯片:
├── 昇腾310: 16 TOPS (INT8), 边缘推理
├── 昇腾310P: 增强版
└── 昇腾310B: 嵌入式
软件栈:
├── CANN (Compute Architecture for Neural Networks)
│ └── 类似CUDA的底层计算库
├── MindSpore(昇思)
│ └── 自研深度学习框架
├── MindSpore Lite
│ └── 端侧推理引擎
└── ModelArts
└── AI开发平台(华为云)
生态挑战:
优势: 国产可控,政策支持,供应链安全
劣势: 软件生态远不如CUDA,第三方支持少
趋势: PyTorch后端适配改善中,vLLM适配推进中
国产替代选型
# Domestic AI chip selection for China market
def china_chip_selection(
scenario: str,
model_size_b: float,
budget_level: str,
compliance_required: bool = True,
) -> dict:
"""Recommend AI chips for China-based deployments."""
chips = {
"ascend_910b": {
"fp16_tflops": 512, "hbm_gb": 64,
"price_factor": 0.6, "ecosystem": 0.5,
"supply": "domestic", "compliance": True,
},
"h100_sxm": {
"fp16_tflops": 989, "hbm_gb": 80,
"price_factor": 1.0, "ecosystem": 1.0,
"supply": "restricted", "compliance": True,
},
"a100_80gb": {
"fp16_tflops": 312, "hbm_gb": 80,
"price_factor": 0.5, "ecosystem": 1.0,
"supply": "limited_stock", "compliance": True,
},
"mi300x": {
"fp16_tflops": 1307, "hbm_gb": 192,
"price_factor": 0.7, "ecosystem": 0.7,
"supply": "available", "compliance": True,
},
}
if compliance_required:
# Filter out restricted supply
chips = {k: v for k, v in chips.items()
if v["supply"] not in ["restricted"]}
# Score based on scenario
scored = {}
for name, spec in chips.items():
if scenario == "training":
score = spec["fp16_tflops"] * 0.4 + spec["ecosystem"] * 100 * 0.3 + (1/spec["price_factor"]) * 50 * 0.3
else: # inference
score = spec["hbm_gb"] * 0.4 + spec["ecosystem"] * 100 * 0.3 + (1/spec["price_factor"]) * 50 * 0.3
scored[name] = round(score, 1)
best = max(scored, key=scored.get)
return {"recommendation": best, "scores": scored}
# Example
result = china_chip_selection("inference", 70, "medium", compliance_required=True)
print(f"Recommendation: {result['recommendation']}")
for chip, score in sorted(result["scores"].items(), key=lambda x: -x[1]):
print(f" {chip}: {score}")
选型决策矩阵
| 场景 | 首选 | 备选 | 理由 |
|---|---|---|---|
| 大模型训练(海外) | H100/B200 | MI300X | CUDA生态无可替代 |
| 大模型训练(国内) | 昇腾910B/C | MI300X | 供应链安全 |
| 在线推理(低延迟) | Groq LPU | H100/B200 | 确定性延迟 |
| 在线推理(高吞吐) | H100/B200 | MI300X | 性价比平衡 |
| 超大模型训练 | Cerebras CS-3 | B200集群 | 无内存瓶颈 |
| 边缘推理 | Jetson Orin | 昇腾310 | 功耗/性能平衡 |
| 成本敏感推理 | MI300X | A100(存量) | 性价比最高 |
总结
AI芯片市场正在从"NVIDIA一家独大"走向"多元化竞争"。训练市场短期内NVIDIA的统治地位难以撼动,这不仅是硬件性能的问题,更是CUDA生态二十年积累的护城河。但推理市场的格局更加开放:AMD以2倍的性价比赢得云厂商青睐,Groq以确定性延迟开辟差异化赛道,华为昇腾在国内市场因供应链安全而获得政策性需求。对工程团队而言,选芯片的核心考量已经从"谁的TFLOPS最高"转变为"在我的约束条件下,谁的TCO最低"——约束条件包括软件生态成熟度、供应链稳定性、功耗预算和合规要求。
Maurice | maurice_wen@proton.me