AI芯片全景:从训练到推理

NVIDIA/AMD/Intel/Groq/Cerebras/华为昇腾:AI加速器架构对比与选型指南

引言

AI芯片市场正处于前所未有的扩张期。NVIDIA凭借CUDA生态和GPU架构持续统治训练市场,但推理市场的竞争格局更加多元——AMD以性价比抢占云端份额,Groq以确定性延迟开辟新赛道,华为昇腾在国内市场快速渗透。本文将从芯片架构、性能指标、软件生态和成本效率四个维度进行系统性对比。

NVIDIA:生态垄断者

架构演进

NVIDIA GPU架构演进(AI相关)

Volta (V100, 2017)
├── Tensor Core 1.0: FP16矩阵乘法
├── 32GB HBM2, 900 GB/s
└── 训练时代开创者

Ampere (A100, 2020)
├── Tensor Core 3.0: TF32/BF16/INT8
├── 80GB HBM2e, 2 TB/s
├── Multi-Instance GPU (MIG)
└── 训练+推理双料冠军

Hopper (H100, 2023)
├── Tensor Core 4.0: FP8
├── 80GB HBM3, 3.35 TB/s
├── Transformer Engine
├── NVLink 4.0 (900 GB/s)
└── 大模型训练标配

Blackwell (B200/B300, 2025-2026)
├── 2nd Gen Transformer Engine
├── 192GB/288GB HBM3e
├── 8 TB/s+ HBM带宽
├── NVLink 5.0 (1.8 TB/s)
├── FP4推理支持
└── 推理性能4倍于H100

关键产品对比

指标 A100-80GB H100-SXM H200-SXM B200
FP16 TFLOPS 312 989 989 4,500
FP8 TFLOPS -- 1,979 1,979 9,000
INT8 TOPS 624 1,979 1,979 9,000
HBM容量 80GB 80GB 141GB 192GB
HBM带宽 2.0 TB/s 3.35 TB/s 4.8 TB/s 8.0 TB/s
TDP 400W 700W 700W 1000W
NVLink 600 GB/s 900 GB/s 900 GB/s 1800 GB/s

AMD:性价比挑战者

MI300X架构特点

# AMD MI300X vs NVIDIA H100 value analysis
comparison = {
    "MI300X": {
        "fp16_tflops": 1307,
        "hbm_capacity_gb": 192,
        "hbm_bandwidth_tbs": 5.3,
        "tdp_w": 750,
        "estimated_price_usd": 15000,
        "software_ecosystem": "ROCm (improving)",
    },
    "H100_SXM": {
        "fp16_tflops": 989,
        "hbm_capacity_gb": 80,
        "hbm_bandwidth_tbs": 3.35,
        "tdp_w": 700,
        "estimated_price_usd": 30000,
        "software_ecosystem": "CUDA (dominant)",
    },
}

print("Performance per Dollar (higher = better value):")
for name, spec in comparison.items():
    perf_per_dollar = spec["fp16_tflops"] / spec["estimated_price_usd"] * 1000
    mem_per_dollar = spec["hbm_capacity_gb"] / spec["estimated_price_usd"] * 1000
    bw_per_dollar = spec["hbm_bandwidth_tbs"] / spec["estimated_price_usd"] * 1e6
    print(f"\n{name}:")
    print(f"  TFLOPS/$1K: {perf_per_dollar:.1f}")
    print(f"  GB/$1K:     {mem_per_dollar:.1f}")
    print(f"  TB/s/$1M:   {bw_per_dollar:.1f}")

ROCm软件生态现状

框架/工具 CUDA支持 ROCm支持 状态
PyTorch 原生 原生 成熟
vLLM 完整 完整 生产就绪
DeepSpeed 完整 大部分 可用
TensorRT 原生 N/A NVIDIA专有
Triton 原生 支持中 改善中
FlashAttention 完整 支持 可用
NCCL 原生 RCCL替代 可用

专用推理芯片

Groq LPU

Groq LPU架构特点

核心理念: 确定性计算(Deterministic Computing)

传统GPU推理:                    Groq LPU推理:
┌─────────────────┐            ┌─────────────────┐
│ DRAM ←→ L2 ←→ SM │            │  230MB SRAM      │
│                   │            │  (全部片上存储)    │
│ 数据在内存层级    │            │                   │
│ 之间来回搬运      │            │  无外部内存        │
│ 延迟不确定        │            │  无缓存未命中      │
└─────────────────┘            │  确定性延迟        │
                               └─────────────────┘

性能特征:
  片上SRAM: 230MB (无HBM)
  内部带宽: ~80 TB/s (片上)
  INT8: ~750 TOPS
  延迟: 确定性,接近零抖动
  功耗: ~300W

适用模型: <230MB权重 (约7B INT4)
                或通过多卡分片支持更大模型

优势: 超低延迟(TTFT),确定性QoS
劣势: 单卡容量小,大模型需多卡

Cerebras CS-3

Cerebras Wafer-Scale Engine

传统芯片: ~800mm² (光刻极限)
Cerebras WSE-3: 46,225mm² (整个晶圆!)

┌──────────────────────────────────┐
│                                  │
│   900,000 AI Cores               │
│   44GB On-chip SRAM              │
│   ~20 PB/s Internal Bandwidth   │
│                                  │
│   单晶圆 = 整个神经网络          │
│   无数据搬运瓶颈                  │
│                                  │
└──────────────────────────────────┘

推理性能:
  Llama 3.1 70B: ~1,800 tok/s (batch=1)
  训练: 可训练万亿参数模型(weight streaming)

独特能力:
  Weight Streaming: 模型权重从外部SSD流入
  适合超大模型训练(内存不是瓶颈)

Intel Gaudi 3

指标 Gaudi 3 H100 对比
BF16 TFLOPS 1,835 989 Gaudi +85%
FP8 TFLOPS 3,670 1,979 Gaudi +85%
HBM容量 128GB 80GB Gaudi +60%
HBM带宽 3.68 TB/s 3.35 TB/s 接近
TDP 900W 700W Gaudi +29%
网络带宽 24x200GbE NVLink 900GB/s 不同架构
软件 Synapse AI CUDA Gaudi较弱

华为昇腾:国产替代

昇腾生态

华为昇腾AI芯片谱系

训练芯片:
├── 昇腾910B: 512 TFLOPS (FP16), 64GB HBM
├── 昇腾910C: 性能提升(量产中)
└── 昇腾920(预期): 对标H100+

推理芯片:
├── 昇腾310: 16 TOPS (INT8), 边缘推理
├── 昇腾310P: 增强版
└── 昇腾310B: 嵌入式

软件栈:
├── CANN (Compute Architecture for Neural Networks)
│   └── 类似CUDA的底层计算库
├── MindSpore(昇思)
│   └── 自研深度学习框架
├── MindSpore Lite
│   └── 端侧推理引擎
└── ModelArts
    └── AI开发平台(华为云)

生态挑战:
  优势: 国产可控,政策支持,供应链安全
  劣势: 软件生态远不如CUDA,第三方支持少
  趋势: PyTorch后端适配改善中,vLLM适配推进中

国产替代选型

# Domestic AI chip selection for China market
def china_chip_selection(
    scenario: str,
    model_size_b: float,
    budget_level: str,
    compliance_required: bool = True,
) -> dict:
    """Recommend AI chips for China-based deployments."""

    chips = {
        "ascend_910b": {
            "fp16_tflops": 512, "hbm_gb": 64,
            "price_factor": 0.6, "ecosystem": 0.5,
            "supply": "domestic", "compliance": True,
        },
        "h100_sxm": {
            "fp16_tflops": 989, "hbm_gb": 80,
            "price_factor": 1.0, "ecosystem": 1.0,
            "supply": "restricted", "compliance": True,
        },
        "a100_80gb": {
            "fp16_tflops": 312, "hbm_gb": 80,
            "price_factor": 0.5, "ecosystem": 1.0,
            "supply": "limited_stock", "compliance": True,
        },
        "mi300x": {
            "fp16_tflops": 1307, "hbm_gb": 192,
            "price_factor": 0.7, "ecosystem": 0.7,
            "supply": "available", "compliance": True,
        },
    }

    if compliance_required:
        # Filter out restricted supply
        chips = {k: v for k, v in chips.items()
                 if v["supply"] not in ["restricted"]}

    # Score based on scenario
    scored = {}
    for name, spec in chips.items():
        if scenario == "training":
            score = spec["fp16_tflops"] * 0.4 + spec["ecosystem"] * 100 * 0.3 + (1/spec["price_factor"]) * 50 * 0.3
        else:  # inference
            score = spec["hbm_gb"] * 0.4 + spec["ecosystem"] * 100 * 0.3 + (1/spec["price_factor"]) * 50 * 0.3
        scored[name] = round(score, 1)

    best = max(scored, key=scored.get)
    return {"recommendation": best, "scores": scored}

# Example
result = china_chip_selection("inference", 70, "medium", compliance_required=True)
print(f"Recommendation: {result['recommendation']}")
for chip, score in sorted(result["scores"].items(), key=lambda x: -x[1]):
    print(f"  {chip}: {score}")

选型决策矩阵

场景 首选 备选 理由
大模型训练(海外) H100/B200 MI300X CUDA生态无可替代
大模型训练(国内) 昇腾910B/C MI300X 供应链安全
在线推理(低延迟) Groq LPU H100/B200 确定性延迟
在线推理(高吞吐) H100/B200 MI300X 性价比平衡
超大模型训练 Cerebras CS-3 B200集群 无内存瓶颈
边缘推理 Jetson Orin 昇腾310 功耗/性能平衡
成本敏感推理 MI300X A100(存量) 性价比最高

总结

AI芯片市场正在从"NVIDIA一家独大"走向"多元化竞争"。训练市场短期内NVIDIA的统治地位难以撼动,这不仅是硬件性能的问题,更是CUDA生态二十年积累的护城河。但推理市场的格局更加开放:AMD以2倍的性价比赢得云厂商青睐,Groq以确定性延迟开辟差异化赛道,华为昇腾在国内市场因供应链安全而获得政策性需求。对工程团队而言,选芯片的核心考量已经从"谁的TFLOPS最高"转变为"在我的约束条件下,谁的TCO最低"——约束条件包括软件生态成熟度、供应链稳定性、功耗预算和合规要求。


Maurice | maurice_wen@proton.me