Scaling Laws 与模型训练经济学

截至 2026-02 | Maurice | 灵阙学院


一、Scaling Laws 的本质

Scaling Laws 描述的是一个简洁而深刻的经验规律:大语言模型的性能(以 loss 衡量)与三个核心变量之间存在幂律关系 -- 参数量 (N)、训练数据量 (D) 和计算量 (C)。这意味着在对数尺度上,投入更多的计算/数据/参数会带来可预测的性能提升,直到命中物理、经济或数据供给的天花板。

理解 Scaling Laws 不仅是学术兴趣,更是一个关乎数亿美元投资决策的实际问题:训练下一代模型应该投多少钱?该把预算分配给更大的模型、更多的数据还是更长的训练时间?


二、从 Kaplan 到 Chinchilla:两代定律

2.1 第一代:Kaplan Scaling Laws (2020)

OpenAI 团队发现,在固定计算预算下,增大模型参数比增加训练数据更高效。核心结论:

L(N) ~ N^(-0.076)    # Loss 随参数量的幂律下降
L(D) ~ D^(-0.095)    # Loss 随数据量的幂律下降
L(C) ~ C^(-0.050)    # Loss 随计算量的幂律下降

实际推论:Kaplan 建议在计算预算翻倍时,应将大部分预算用于增大模型参数,而非增加训练数据。这直接影响了 GPT-3 (175B 参数, 300B tokens) 的设计决策。

2.2 第二代:Chinchilla Scaling Laws (2022)

DeepMind 团队对 Kaplan 的结论做了重要修正。通过训练 400+ 个不同配置的模型,发现参数量和数据量应该以大致相同的速率增长:

最优训练 Token 数 ~ 20 * 参数量
即:D_opt ~ 20N
模型 参数量 Kaplan 建议数据 Chinchilla 建议数据 实际训练数据
GPT-3 175B ~175B tokens ~3.5T tokens 300B (欠训练)
Chinchilla 70B ~70B tokens ~1.4T tokens 1.4T (最优)
Llama 2 70B 70B ~70B ~1.4T 2T (过训练)
Llama 3 70B 70B ~70B ~1.4T 15T (极度过训练)

2.3 第三代演进:超越 Chinchilla

2024-2026 年的实践表明,Chinchilla 的 20:1 比例在推理成本纳入考量后不再是最优:

策略 Token/参数比 训练成本 推理成本 总成本 (3年)
Kaplan 最优 ~1:1 高 (模型过大)
Chinchilla 最优 ~20:1
推理感知最优 ~100-200:1 低 (模型更小)
实际趋势 (2025+) ~200:1+ 最低 最低

核心洞察:当模型要服务大量推理请求时,多花训练成本训出更小但更强的模型,在总拥有成本上更划算。这解释了为什么 Llama 3 用 15T tokens 训练一个 70B 模型,远超 Chinchilla 比例。


三、计算量建模

3.1 FLOPs 估算公式

对于标准 Transformer 架构,训练 FLOPs 的近似计算为:

C = 6 * N * D

其中:
C = 总浮点运算次数 (FLOPs)
N = 模型参数量
D = 训练 Token 数
6 = 常数 (前向 2x + 反向 4x 每参数每 token)

3.2 主流模型计算量对比

模型 参数量 训练 Tokens 估算 FLOPs GPU-hours (H100) 估算成本
GPT-3 175B 300B 3.15e23 ~10K $300K
Chinchilla 70B 1.4T 5.88e23 ~20K $600K
Llama 2 70B 70B 2T 8.4e23 ~28K $850K
Llama 3 70B 70B 15T 6.3e24 ~210K $6.5M
Llama 3.1 405B 405B 15T 3.6e25 ~1.2M $60M
GPT-4 (推测) ~1.8T MoE ~13T ~2e25 ~800K $80M
DeepSeek V3 671B MoE 14.8T ~2.8e24 ~180K $5.6M
Gemini Ultra (推测) ~1T+ ~10T+ ~1e25+ ~500K+ $50M+

3.3 MoE 对计算效率的影响

混合专家模型 (Mixture of Experts) 改变了传统 Scaling Laws 的参数-计算关系:

指标 Dense 模型 MoE 模型 差异
总参数量 N 4-8x N MoE 更大
每 Token 激活参数 N N/4 - N/8 MoE 更小
训练 FLOPs/Token 6N 6 * N_active MoE 更省
内存占用 N 4-8x N MoE 更大
推理延迟 基线 与 Dense 同等级 相当

MoE 的核心优势:用更大的总参数量获取更多知识容量,但每次推理只激活一小部分参数,从而在不增加推理成本的前提下提升模型能力。DeepSeek V3 的 671B 总参数/37B 激活参数就是这一思路的极致体现。


四、训练集群经济学

4.1 集群配置方案对比

规模 GPU 数量 GPU 类型 互联 投资额 适用场景
微型 8-32 H100 NVLink+PCIe $300K-$1.2M 7B 微调 / 小模型训练
小型 64-256 H100 NVLink+IB $2.5M-$10M 7B-13B 从头训练
中型 512-2048 H100 NVSwitch+IB $20M-$80M 70B 训练
大型 4096-16384 H100/GB200 NVL72+IB $200M-$800M 400B+ 训练
超大型 16384+ GB200 NVL72 专用网络 $1B+ 1T+ 前沿模型

4.2 集群运营成本结构

成本项 占比 (年化) 说明
GPU 折旧 35%-45% 按 4-5 年折旧
电力 20%-30% 含冷却,PUE 1.1-1.4
网络设备 8%-12% InfiniBand / NVLink 交换机
存储 5%-8% 分布式存储 + 检查点
人力运维 8%-12% SRE + MLOps
场地/其他 5%-10% 机柜/物理安全/保险

4.3 电力成本深度分析

集群规模 功耗 (MW) 年电费 ($0.08/kWh) 年电费 ($0.15/kWh)
256x H100 ~0.2 MW $140K $263K
2048x H100 ~1.6 MW $1.1M $2.1M
16384x H100 ~12.8 MW $9M $16.8M
100K GB200 ~200 MW $140M $263M

五、各模型家族训练成本比较

5.1 成本效率矩阵

模型 训练成本 (估算) 性能 (MMLU) 成本效率 (MMLU/百万$) 关键效率技巧
GPT-4 $80M-$100M ~86% ~0.9 早期MoE (推测)
Claude 3.5 Sonnet ~$50M (推测) ~88% ~1.8 训练效率优化
Llama 3.1 405B $60M-$100M ~88% ~1.0 长训练 + 大数据
DeepSeek V3 $5.6M ~87% ~15.5 MoE + 混合精度 + 低成本GPU
Qwen 2.5 72B ~$10M (推测) ~86% ~8.6 大数据 + 效率优化
Mistral Large 2 ~$20M (推测) ~84% ~4.2 MoE 架构
Gemini 1.5 Pro ~$50M (推测) ~86% ~1.7 TPU 效率

5.2 DeepSeek 成本优势分析

DeepSeek V3 以 $5.6M 训练成本达到接近 GPT-4 水平的性能,成本效率领先一个数量级。其核心手段包括:

优化维度 DeepSeek V3 做法 效果
架构 MoE (671B/37B 激活) 训练 FLOPs 降低 ~10x
精度 FP8 混合精度训练 计算效率提升 ~2x
通信 自研通信优化 集群利用率 >60%
硬件 H800 (受限版 H100) 单位成本更低
数据 14.8T 高质量 tokens 数据效率高

六、收益递减分析

6.1 Loss 递减规律

Scaling Laws 的幂律本质意味着收益递减是内在的:

计算量倍增 Loss 下降幅度 性能感知
1x -> 10x ~15%-20% 明显提升
10x -> 100x ~12%-15% 可感知提升
100x -> 1000x ~10%-12% 需要 benchmark 测量
1000x -> 10000x ~8%-10% 边际价值递减

6.2 "智能天花板"假说

部分研究者认为纯文本预训练正在接近信息论极限:

信号 证据 确信度
Benchmark 饱和 MMLU/HellaSwag 等已接近人类上限
训练数据枯竭 高质量互联网文本约 10-15T tokens 中高
涌现能力放缓 新涌现能力的出现频率在下降
成本指数增长 每代模型训练成本 ~5-10x

6.3 突破方向

方向 核心思路 代表工作 成熟度
合成数据 用模型生成训练数据 Phi-3, Orca 系列
测试时计算 推理阶段投入更多计算 o1/o3, DeepSeek R1
多模态数据 视觉/音频扩充训练信号 Gemini, GPT-4o
长上下文 扩大上下文窗口 Gemini 1.5 (1M+) 中高
新架构 替代 Transformer Mamba, RWKV, xLSTM
强化学习 RL 驱动的推理能力 o1/o3, R1 中高

七、小团队的策略指南

7.1 预算与可行性矩阵

预算区间 可行的训练规模 推荐策略
<$10K 7B 模型 LoRA 微调 微调开源模型
$10K-$100K 7B 全参数微调 / 13B LoRA 高质量数据 + 开源基座
$100K-$1M 7B 从头训练 / 70B 微调 聚焦垂直领域
$1M-$10M 13B-70B 从头训练 MoE + 合成数据
$10M-$100M 70B-400B 从头训练 需要顶级 ML 团队

7.2 关键决策:训练 vs 微调 vs API

维度 从头训练 微调 API 调用
成本 $100K-$100M+ $1K-$100K $0.1-$10/1K req
可定制性 完全 低 (仅 prompt)
数据需求 TB 级 GB 级
团队需求 5-50+ ML 工程师 1-3 ML 工程师 0 (产品/应用层)
时间 月-年 天-周 即时
适合 需要独特能力/数据壁垒 领域适配 快速验证/通用任务

八、趋势判断

8.1 2026-2027 预测

趋势 确信度 对训练经济学的影响
测试时计算投入成为主流 推理成本上升,但能力大幅提升
合成数据占训练数据 >50% 中高 数据获取成本下降
FP4/FP8 训练成为默认 计算效率再提升 2x
10T+ token 训练成为标配 长训练策略普及
模型蒸馏/合并工具链成熟 中高 小团队进入门槛降低
自适应计算 (early exit) 推理效率优化空间

8.2 对投资者的启示

前沿训练是巨头游戏($100M+ 预算),但效率创新是最大杠杆(DeepSeek 证明 10x 成本差距可被架构创新抹平)。推理经济学将主导行业(总 TCO 中推理占比超 80%)。数据质量重于数据数量。通过蒸馏、长训练和合成数据,7B-70B 小模型正迎来黄金时代。


Maurice | maurice_wen@proton.me