Scaling Laws 与模型训练经济学
AI 导读
Scaling Laws 与模型训练经济学 截至 2026-02 | Maurice | 灵阙学院 一、Scaling Laws 的本质 Scaling Laws 描述的是一个简洁而深刻的经验规律:大语言模型的性能(以 loss 衡量)与三个核心变量之间存在幂律关系 -- 参数量 (N)、训练数据量 (D) 和计算量...
Scaling Laws 与模型训练经济学
截至 2026-02 | Maurice | 灵阙学院
一、Scaling Laws 的本质
Scaling Laws 描述的是一个简洁而深刻的经验规律:大语言模型的性能(以 loss 衡量)与三个核心变量之间存在幂律关系 -- 参数量 (N)、训练数据量 (D) 和计算量 (C)。这意味着在对数尺度上,投入更多的计算/数据/参数会带来可预测的性能提升,直到命中物理、经济或数据供给的天花板。
理解 Scaling Laws 不仅是学术兴趣,更是一个关乎数亿美元投资决策的实际问题:训练下一代模型应该投多少钱?该把预算分配给更大的模型、更多的数据还是更长的训练时间?
二、从 Kaplan 到 Chinchilla:两代定律
2.1 第一代:Kaplan Scaling Laws (2020)
OpenAI 团队发现,在固定计算预算下,增大模型参数比增加训练数据更高效。核心结论:
L(N) ~ N^(-0.076) # Loss 随参数量的幂律下降
L(D) ~ D^(-0.095) # Loss 随数据量的幂律下降
L(C) ~ C^(-0.050) # Loss 随计算量的幂律下降
实际推论:Kaplan 建议在计算预算翻倍时,应将大部分预算用于增大模型参数,而非增加训练数据。这直接影响了 GPT-3 (175B 参数, 300B tokens) 的设计决策。
2.2 第二代:Chinchilla Scaling Laws (2022)
DeepMind 团队对 Kaplan 的结论做了重要修正。通过训练 400+ 个不同配置的模型,发现参数量和数据量应该以大致相同的速率增长:
最优训练 Token 数 ~ 20 * 参数量
即:D_opt ~ 20N
| 模型 | 参数量 | Kaplan 建议数据 | Chinchilla 建议数据 | 实际训练数据 |
|---|---|---|---|---|
| GPT-3 | 175B | ~175B tokens | ~3.5T tokens | 300B (欠训练) |
| Chinchilla | 70B | ~70B tokens | ~1.4T tokens | 1.4T (最优) |
| Llama 2 70B | 70B | ~70B | ~1.4T | 2T (过训练) |
| Llama 3 70B | 70B | ~70B | ~1.4T | 15T (极度过训练) |
2.3 第三代演进:超越 Chinchilla
2024-2026 年的实践表明,Chinchilla 的 20:1 比例在推理成本纳入考量后不再是最优:
| 策略 | Token/参数比 | 训练成本 | 推理成本 | 总成本 (3年) |
|---|---|---|---|---|
| Kaplan 最优 | ~1:1 | 低 | 高 (模型过大) | 高 |
| Chinchilla 最优 | ~20:1 | 中 | 中 | 中 |
| 推理感知最优 | ~100-200:1 | 高 | 低 (模型更小) | 低 |
| 实际趋势 (2025+) | ~200:1+ | 高 | 最低 | 最低 |
核心洞察:当模型要服务大量推理请求时,多花训练成本训出更小但更强的模型,在总拥有成本上更划算。这解释了为什么 Llama 3 用 15T tokens 训练一个 70B 模型,远超 Chinchilla 比例。
三、计算量建模
3.1 FLOPs 估算公式
对于标准 Transformer 架构,训练 FLOPs 的近似计算为:
C = 6 * N * D
其中:
C = 总浮点运算次数 (FLOPs)
N = 模型参数量
D = 训练 Token 数
6 = 常数 (前向 2x + 反向 4x 每参数每 token)
3.2 主流模型计算量对比
| 模型 | 参数量 | 训练 Tokens | 估算 FLOPs | GPU-hours (H100) | 估算成本 |
|---|---|---|---|---|---|
| GPT-3 | 175B | 300B | 3.15e23 | ~10K | $300K |
| Chinchilla | 70B | 1.4T | 5.88e23 | ~20K | $600K |
| Llama 2 70B | 70B | 2T | 8.4e23 | ~28K | $850K |
| Llama 3 70B | 70B | 15T | 6.3e24 | ~210K | $6.5M |
| Llama 3.1 405B | 405B | 15T | 3.6e25 | ~1.2M | $60M |
| GPT-4 (推测) | ~1.8T MoE | ~13T | ~2e25 | ~800K | $80M |
| DeepSeek V3 | 671B MoE | 14.8T | ~2.8e24 | ~180K | $5.6M |
| Gemini Ultra (推测) | ~1T+ | ~10T+ | ~1e25+ | ~500K+ | $50M+ |
3.3 MoE 对计算效率的影响
混合专家模型 (Mixture of Experts) 改变了传统 Scaling Laws 的参数-计算关系:
| 指标 | Dense 模型 | MoE 模型 | 差异 |
|---|---|---|---|
| 总参数量 | N | 4-8x N | MoE 更大 |
| 每 Token 激活参数 | N | N/4 - N/8 | MoE 更小 |
| 训练 FLOPs/Token | 6N | 6 * N_active | MoE 更省 |
| 内存占用 | N | 4-8x N | MoE 更大 |
| 推理延迟 | 基线 | 与 Dense 同等级 | 相当 |
MoE 的核心优势:用更大的总参数量获取更多知识容量,但每次推理只激活一小部分参数,从而在不增加推理成本的前提下提升模型能力。DeepSeek V3 的 671B 总参数/37B 激活参数就是这一思路的极致体现。
四、训练集群经济学
4.1 集群配置方案对比
| 规模 | GPU 数量 | GPU 类型 | 互联 | 投资额 | 适用场景 |
|---|---|---|---|---|---|
| 微型 | 8-32 | H100 | NVLink+PCIe | $300K-$1.2M | 7B 微调 / 小模型训练 |
| 小型 | 64-256 | H100 | NVLink+IB | $2.5M-$10M | 7B-13B 从头训练 |
| 中型 | 512-2048 | H100 | NVSwitch+IB | $20M-$80M | 70B 训练 |
| 大型 | 4096-16384 | H100/GB200 | NVL72+IB | $200M-$800M | 400B+ 训练 |
| 超大型 | 16384+ | GB200 NVL72 | 专用网络 | $1B+ | 1T+ 前沿模型 |
4.2 集群运营成本结构
| 成本项 | 占比 (年化) | 说明 |
|---|---|---|
| GPU 折旧 | 35%-45% | 按 4-5 年折旧 |
| 电力 | 20%-30% | 含冷却,PUE 1.1-1.4 |
| 网络设备 | 8%-12% | InfiniBand / NVLink 交换机 |
| 存储 | 5%-8% | 分布式存储 + 检查点 |
| 人力运维 | 8%-12% | SRE + MLOps |
| 场地/其他 | 5%-10% | 机柜/物理安全/保险 |
4.3 电力成本深度分析
| 集群规模 | 功耗 (MW) | 年电费 ($0.08/kWh) | 年电费 ($0.15/kWh) |
|---|---|---|---|
| 256x H100 | ~0.2 MW | $140K | $263K |
| 2048x H100 | ~1.6 MW | $1.1M | $2.1M |
| 16384x H100 | ~12.8 MW | $9M | $16.8M |
| 100K GB200 | ~200 MW | $140M | $263M |
五、各模型家族训练成本比较
5.1 成本效率矩阵
| 模型 | 训练成本 (估算) | 性能 (MMLU) | 成本效率 (MMLU/百万$) | 关键效率技巧 |
|---|---|---|---|---|
| GPT-4 | $80M-$100M | ~86% | ~0.9 | 早期MoE (推测) |
| Claude 3.5 Sonnet | ~$50M (推测) | ~88% | ~1.8 | 训练效率优化 |
| Llama 3.1 405B | $60M-$100M | ~88% | ~1.0 | 长训练 + 大数据 |
| DeepSeek V3 | $5.6M | ~87% | ~15.5 | MoE + 混合精度 + 低成本GPU |
| Qwen 2.5 72B | ~$10M (推测) | ~86% | ~8.6 | 大数据 + 效率优化 |
| Mistral Large 2 | ~$20M (推测) | ~84% | ~4.2 | MoE 架构 |
| Gemini 1.5 Pro | ~$50M (推测) | ~86% | ~1.7 | TPU 效率 |
5.2 DeepSeek 成本优势分析
DeepSeek V3 以 $5.6M 训练成本达到接近 GPT-4 水平的性能,成本效率领先一个数量级。其核心手段包括:
| 优化维度 | DeepSeek V3 做法 | 效果 |
|---|---|---|
| 架构 | MoE (671B/37B 激活) | 训练 FLOPs 降低 ~10x |
| 精度 | FP8 混合精度训练 | 计算效率提升 ~2x |
| 通信 | 自研通信优化 | 集群利用率 >60% |
| 硬件 | H800 (受限版 H100) | 单位成本更低 |
| 数据 | 14.8T 高质量 tokens | 数据效率高 |
六、收益递减分析
6.1 Loss 递减规律
Scaling Laws 的幂律本质意味着收益递减是内在的:
| 计算量倍增 | Loss 下降幅度 | 性能感知 |
|---|---|---|
| 1x -> 10x | ~15%-20% | 明显提升 |
| 10x -> 100x | ~12%-15% | 可感知提升 |
| 100x -> 1000x | ~10%-12% | 需要 benchmark 测量 |
| 1000x -> 10000x | ~8%-10% | 边际价值递减 |
6.2 "智能天花板"假说
部分研究者认为纯文本预训练正在接近信息论极限:
| 信号 | 证据 | 确信度 |
|---|---|---|
| Benchmark 饱和 | MMLU/HellaSwag 等已接近人类上限 | 高 |
| 训练数据枯竭 | 高质量互联网文本约 10-15T tokens | 中高 |
| 涌现能力放缓 | 新涌现能力的出现频率在下降 | 中 |
| 成本指数增长 | 每代模型训练成本 ~5-10x | 高 |
6.3 突破方向
| 方向 | 核心思路 | 代表工作 | 成熟度 |
|---|---|---|---|
| 合成数据 | 用模型生成训练数据 | Phi-3, Orca 系列 | 高 |
| 测试时计算 | 推理阶段投入更多计算 | o1/o3, DeepSeek R1 | 高 |
| 多模态数据 | 视觉/音频扩充训练信号 | Gemini, GPT-4o | 高 |
| 长上下文 | 扩大上下文窗口 | Gemini 1.5 (1M+) | 中高 |
| 新架构 | 替代 Transformer | Mamba, RWKV, xLSTM | 中 |
| 强化学习 | RL 驱动的推理能力 | o1/o3, R1 | 中高 |
七、小团队的策略指南
7.1 预算与可行性矩阵
| 预算区间 | 可行的训练规模 | 推荐策略 |
|---|---|---|
| <$10K | 7B 模型 LoRA 微调 | 微调开源模型 |
| $10K-$100K | 7B 全参数微调 / 13B LoRA | 高质量数据 + 开源基座 |
| $100K-$1M | 7B 从头训练 / 70B 微调 | 聚焦垂直领域 |
| $1M-$10M | 13B-70B 从头训练 | MoE + 合成数据 |
| $10M-$100M | 70B-400B 从头训练 | 需要顶级 ML 团队 |
7.2 关键决策:训练 vs 微调 vs API
| 维度 | 从头训练 | 微调 | API 调用 |
|---|---|---|---|
| 成本 | $100K-$100M+ | $1K-$100K | $0.1-$10/1K req |
| 可定制性 | 完全 | 高 | 低 (仅 prompt) |
| 数据需求 | TB 级 | GB 级 | 无 |
| 团队需求 | 5-50+ ML 工程师 | 1-3 ML 工程师 | 0 (产品/应用层) |
| 时间 | 月-年 | 天-周 | 即时 |
| 适合 | 需要独特能力/数据壁垒 | 领域适配 | 快速验证/通用任务 |
八、趋势判断
8.1 2026-2027 预测
| 趋势 | 确信度 | 对训练经济学的影响 |
|---|---|---|
| 测试时计算投入成为主流 | 高 | 推理成本上升,但能力大幅提升 |
| 合成数据占训练数据 >50% | 中高 | 数据获取成本下降 |
| FP4/FP8 训练成为默认 | 高 | 计算效率再提升 2x |
| 10T+ token 训练成为标配 | 高 | 长训练策略普及 |
| 模型蒸馏/合并工具链成熟 | 中高 | 小团队进入门槛降低 |
| 自适应计算 (early exit) | 中 | 推理效率优化空间 |
8.2 对投资者的启示
前沿训练是巨头游戏($100M+ 预算),但效率创新是最大杠杆(DeepSeek 证明 10x 成本差距可被架构创新抹平)。推理经济学将主导行业(总 TCO 中推理占比超 80%)。数据质量重于数据数量。通过蒸馏、长训练和合成数据,7B-70B 小模型正迎来黄金时代。
Maurice | maurice_wen@proton.me