AI芯片全景：从训练到推理

原创灵阙教研团队

A 推荐进阶 | 约 6 分钟阅读更新于 2026-02-28

AI 导读

AI芯片全景：从训练到推理 NVIDIA/AMD/Intel/Groq/Cerebras/华为昇腾：AI加速器架构对比与选型指南引言...

AI芯片全景：从训练到推理

NVIDIA/AMD/Intel/Groq/Cerebras/华为昇腾：AI加速器架构对比与选型指南

引言

AI芯片市场正处于前所未有的扩张期。NVIDIA凭借CUDA生态和GPU架构持续统治训练市场，但推理市场的竞争格局更加多元——AMD以性价比抢占云端份额，Groq以确定性延迟开辟新赛道，华为昇腾在国内市场快速渗透。本文将从芯片架构、性能指标、软件生态和成本效率四个维度进行系统性对比。

NVIDIA：生态垄断者

架构演进

NVIDIA GPU架构演进（AI相关）

Volta (V100, 2017)
├── Tensor Core 1.0: FP16矩阵乘法
├── 32GB HBM2, 900 GB/s
└── 训练时代开创者

Ampere (A100, 2020)
├── Tensor Core 3.0: TF32/BF16/INT8
├── 80GB HBM2e, 2 TB/s
├── Multi-Instance GPU (MIG)
└── 训练+推理双料冠军

Hopper (H100, 2023)
├── Tensor Core 4.0: FP8
├── 80GB HBM3, 3.35 TB/s
├── Transformer Engine
├── NVLink 4.0 (900 GB/s)
└── 大模型训练标配

Blackwell (B200/B300, 2025-2026)
├── 2nd Gen Transformer Engine
├── 192GB/288GB HBM3e
├── 8 TB/s+ HBM带宽
├── NVLink 5.0 (1.8 TB/s)
├── FP4推理支持
└── 推理性能4倍于H100

关键产品对比

指标	A100-80GB	H100-SXM	H200-SXM	B200
FP16 TFLOPS	312	989	989	4,500
FP8 TFLOPS	--	1,979	1,979	9,000
INT8 TOPS	624	1,979	1,979	9,000
HBM容量	80GB	80GB	141GB	192GB
HBM带宽	2.0 TB/s	3.35 TB/s	4.8 TB/s	8.0 TB/s
TDP	400W	700W	700W	1000W
NVLink	600 GB/s	900 GB/s	900 GB/s	1800 GB/s

AMD：性价比挑战者

MI300X架构特点

# AMD MI300X vs NVIDIA H100 value analysis
comparison = {
    "MI300X": {
        "fp16_tflops": 1307,
        "hbm_capacity_gb": 192,
        "hbm_bandwidth_tbs": 5.3,
        "tdp_w": 750,
        "estimated_price_usd": 15000,
        "software_ecosystem": "ROCm (improving)",
    },
    "H100_SXM": {
        "fp16_tflops": 989,
        "hbm_capacity_gb": 80,
        "hbm_bandwidth_tbs": 3.35,
        "tdp_w": 700,
        "estimated_price_usd": 30000,
        "software_ecosystem": "CUDA (dominant)",
    },
}

print("Performance per Dollar (higher = better value):")
for name, spec in comparison.items():
    perf_per_dollar = spec["fp16_tflops"] / spec["estimated_price_usd"] * 1000
    mem_per_dollar = spec["hbm_capacity_gb"] / spec["estimated_price_usd"] * 1000
    bw_per_dollar = spec["hbm_bandwidth_tbs"] / spec["estimated_price_usd"] * 1e6
    print(f"\n{name}:")
    print(f"  TFLOPS/$1K: {perf_per_dollar:.1f}")
    print(f"  GB/$1K:     {mem_per_dollar:.1f}")
    print(f"  TB/s/$1M:   {bw_per_dollar:.1f}")

ROCm软件生态现状

框架/工具	CUDA支持	ROCm支持	状态
PyTorch	原生	原生	成熟
vLLM	完整	完整	生产就绪
DeepSpeed	完整	大部分	可用
TensorRT	原生	N/A	NVIDIA专有
Triton	原生	支持中	改善中
FlashAttention	完整	支持	可用
NCCL	原生	RCCL替代	可用

专用推理芯片

Groq LPU

Groq LPU架构特点

核心理念: 确定性计算（Deterministic Computing）

传统GPU推理:                    Groq LPU推理:
┌─────────────────┐            ┌─────────────────┐
│ DRAM ←→ L2 ←→ SM │            │  230MB SRAM      │
│                   │            │  (全部片上存储)    │
│ 数据在内存层级    │            │                   │
│ 之间来回搬运      │            │  无外部内存        │
│ 延迟不确定        │            │  无缓存未命中      │
└─────────────────┘            │  确定性延迟        │
                               └─────────────────┘

性能特征:
  片上SRAM: 230MB (无HBM)
  内部带宽: ~80 TB/s (片上)
  INT8: ~750 TOPS
  延迟: 确定性，接近零抖动
  功耗: ~300W

适用模型: <230MB权重 (约7B INT4)
                或通过多卡分片支持更大模型

优势: 超低延迟(TTFT)，确定性QoS
劣势: 单卡容量小，大模型需多卡

Cerebras CS-3

Cerebras Wafer-Scale Engine

传统芯片: ~800mm² (光刻极限)
Cerebras WSE-3: 46,225mm² (整个晶圆!)

┌──────────────────────────────────┐
│                                  │
│   900,000 AI Cores               │
│   44GB On-chip SRAM              │
│   ~20 PB/s Internal Bandwidth   │
│                                  │
│   单晶圆 = 整个神经网络          │
│   无数据搬运瓶颈                  │
│                                  │
└──────────────────────────────────┘

推理性能:
  Llama 3.1 70B: ~1,800 tok/s (batch=1)
  训练: 可训练万亿参数模型（weight streaming）

独特能力:
  Weight Streaming: 模型权重从外部SSD流入
  适合超大模型训练（内存不是瓶颈）

Intel Gaudi 3

指标	Gaudi 3	H100	对比
BF16 TFLOPS	1,835	989	Gaudi +85%
FP8 TFLOPS	3,670	1,979	Gaudi +85%
HBM容量	128GB	80GB	Gaudi +60%
HBM带宽	3.68 TB/s	3.35 TB/s	接近
TDP	900W	700W	Gaudi +29%
网络带宽	24x200GbE	NVLink 900GB/s	不同架构
软件	Synapse AI	CUDA	Gaudi较弱

华为昇腾：国产替代

昇腾生态

华为昇腾AI芯片谱系

训练芯片:
├── 昇腾910B: 512 TFLOPS (FP16), 64GB HBM
├── 昇腾910C: 性能提升（量产中）
└── 昇腾920（预期）: 对标H100+

推理芯片:
├── 昇腾310: 16 TOPS (INT8), 边缘推理
├── 昇腾310P: 增强版
└── 昇腾310B: 嵌入式

软件栈:
├── CANN (Compute Architecture for Neural Networks)
│   └── 类似CUDA的底层计算库
├── MindSpore（昇思）
│   └── 自研深度学习框架
├── MindSpore Lite
│   └── 端侧推理引擎
└── ModelArts
    └── AI开发平台（华为云）

生态挑战:
  优势: 国产可控，政策支持，供应链安全
  劣势: 软件生态远不如CUDA，第三方支持少
  趋势: PyTorch后端适配改善中，vLLM适配推进中

国产替代选型

# Domestic AI chip selection for China market
def china_chip_selection(
    scenario: str,
    model_size_b: float,
    budget_level: str,
    compliance_required: bool = True,
) -> dict:
    """Recommend AI chips for China-based deployments."""

    chips = {
        "ascend_910b": {
            "fp16_tflops": 512, "hbm_gb": 64,
            "price_factor": 0.6, "ecosystem": 0.5,
            "supply": "domestic", "compliance": True,
        },
        "h100_sxm": {
            "fp16_tflops": 989, "hbm_gb": 80,
            "price_factor": 1.0, "ecosystem": 1.0,
            "supply": "restricted", "compliance": True,
        },
        "a100_80gb": {
            "fp16_tflops": 312, "hbm_gb": 80,
            "price_factor": 0.5, "ecosystem": 1.0,
            "supply": "limited_stock", "compliance": True,
        },
        "mi300x": {
            "fp16_tflops": 1307, "hbm_gb": 192,
            "price_factor": 0.7, "ecosystem": 0.7,
            "supply": "available", "compliance": True,
        },
    }

    if compliance_required:
        # Filter out restricted supply
        chips = {k: v for k, v in chips.items()
                 if v["supply"] not in ["restricted"]}

    # Score based on scenario
    scored = {}
    for name, spec in chips.items():
        if scenario == "training":
            score = spec["fp16_tflops"] * 0.4 + spec["ecosystem"] * 100 * 0.3 + (1/spec["price_factor"]) * 50 * 0.3
        else:  # inference
            score = spec["hbm_gb"] * 0.4 + spec["ecosystem"] * 100 * 0.3 + (1/spec["price_factor"]) * 50 * 0.3
        scored[name] = round(score, 1)

    best = max(scored, key=scored.get)
    return {"recommendation": best, "scores": scored}

# Example
result = china_chip_selection("inference", 70, "medium", compliance_required=True)
print(f"Recommendation: {result['recommendation']}")
for chip, score in sorted(result["scores"].items(), key=lambda x: -x[1]):
    print(f"  {chip}: {score}")

选型决策矩阵

场景	首选	备选	理由
大模型训练(海外)	H100/B200	MI300X	CUDA生态无可替代
大模型训练(国内)	昇腾910B/C	MI300X	供应链安全
在线推理(低延迟)	Groq LPU	H100/B200	确定性延迟
在线推理(高吞吐)	H100/B200	MI300X	性价比平衡
超大模型训练	Cerebras CS-3	B200集群	无内存瓶颈
边缘推理	Jetson Orin	昇腾310	功耗/性能平衡
成本敏感推理	MI300X	A100(存量)	性价比最高

总结

AI芯片市场正在从"NVIDIA一家独大"走向"多元化竞争"。训练市场短期内NVIDIA的统治地位难以撼动，这不仅是硬件性能的问题，更是CUDA生态二十年积累的护城河。但推理市场的格局更加开放：AMD以2倍的性价比赢得云厂商青睐，Groq以确定性延迟开辟差异化赛道，华为昇腾在国内市场因供应链安全而获得政策性需求。对工程团队而言，选芯片的核心考量已经从"谁的TFLOPS最高"转变为"在我的约束条件下，谁的TCO最低"——约束条件包括软件生态成熟度、供应链稳定性、功耗预算和合规要求。

Maurice | maurice_wen@proton.me