Scaling Laws 与模型训练经济学

原创灵阙教研团队

A 推荐进阶 | 约 8 分钟阅读更新于 2026-02-27

AI 导读

Scaling Laws 与模型训练经济学截至 2026-02 | Maurice | 灵阙学院一、Scaling Laws 的本质 Scaling Laws 描述的是一个简洁而深刻的经验规律：大语言模型的性能（以 loss 衡量）与三个核心变量之间存在幂律关系 -- 参数量 (N)、训练数据量 (D) 和计算量...

Scaling Laws 与模型训练经济学

截至 2026-02 | Maurice | 灵阙学院

一、Scaling Laws 的本质

Scaling Laws 描述的是一个简洁而深刻的经验规律：大语言模型的性能（以 loss 衡量）与三个核心变量之间存在幂律关系 -- 参数量 (N)、训练数据量 (D) 和计算量 (C)。这意味着在对数尺度上，投入更多的计算/数据/参数会带来可预测的性能提升，直到命中物理、经济或数据供给的天花板。

理解 Scaling Laws 不仅是学术兴趣，更是一个关乎数亿美元投资决策的实际问题：训练下一代模型应该投多少钱？该把预算分配给更大的模型、更多的数据还是更长的训练时间？

二、从 Kaplan 到 Chinchilla：两代定律

2.1 第一代：Kaplan Scaling Laws (2020)

OpenAI 团队发现，在固定计算预算下，增大模型参数比增加训练数据更高效。核心结论：

L(N) ~ N^(-0.076)    # Loss 随参数量的幂律下降
L(D) ~ D^(-0.095)    # Loss 随数据量的幂律下降
L(C) ~ C^(-0.050)    # Loss 随计算量的幂律下降

实际推论：Kaplan 建议在计算预算翻倍时，应将大部分预算用于增大模型参数，而非增加训练数据。这直接影响了 GPT-3 (175B 参数, 300B tokens) 的设计决策。

2.2 第二代：Chinchilla Scaling Laws (2022)

DeepMind 团队对 Kaplan 的结论做了重要修正。通过训练 400+ 个不同配置的模型，发现参数量和数据量应该以大致相同的速率增长：

最优训练 Token 数 ~ 20 * 参数量
即：D_opt ~ 20N

模型	参数量	Kaplan 建议数据	Chinchilla 建议数据	实际训练数据
GPT-3	175B	~175B tokens	~3.5T tokens	300B (欠训练)
Chinchilla	70B	~70B tokens	~1.4T tokens	1.4T (最优)
Llama 2 70B	70B	~70B	~1.4T	2T (过训练)
Llama 3 70B	70B	~70B	~1.4T	15T (极度过训练)

2.3 第三代演进：超越 Chinchilla

2024-2026 年的实践表明，Chinchilla 的 20:1 比例在推理成本纳入考量后不再是最优：

策略	Token/参数比	训练成本	推理成本	总成本 (3年)
Kaplan 最优	~1:1	低	高 (模型过大)	高
Chinchilla 最优	~20:1	中	中	中
推理感知最优	~100-200:1	高	低 (模型更小)	低
实际趋势 (2025+)	~200:1+	高	最低	最低

核心洞察：当模型要服务大量推理请求时，多花训练成本训出更小但更强的模型，在总拥有成本上更划算。这解释了为什么 Llama 3 用 15T tokens 训练一个 70B 模型，远超 Chinchilla 比例。

三、计算量建模

3.1 FLOPs 估算公式

对于标准 Transformer 架构，训练 FLOPs 的近似计算为：

C = 6 * N * D

其中：
C = 总浮点运算次数 (FLOPs)
N = 模型参数量
D = 训练 Token 数
6 = 常数 (前向 2x + 反向 4x 每参数每 token)

3.2 主流模型计算量对比

模型	参数量	训练 Tokens	估算 FLOPs	GPU-hours (H100)	估算成本
GPT-3	175B	300B	3.15e23	~10K	$300K
Chinchilla	70B	1.4T	5.88e23	~20K	$600K
Llama 2 70B	70B	2T	8.4e23	~28K	$850K
Llama 3 70B	70B	15T	6.3e24	~210K	$6.5M
Llama 3.1 405B	405B	15T	3.6e25	~1.2M	$60M
GPT-4 (推测)	~1.8T MoE	~13T	~2e25	~800K	$80M
DeepSeek V3	671B MoE	14.8T	~2.8e24	~180K	$5.6M
Gemini Ultra (推测)	~1T+	~10T+	~1e25+	~500K+	$50M+

3.3 MoE 对计算效率的影响

混合专家模型 (Mixture of Experts) 改变了传统 Scaling Laws 的参数-计算关系：

指标	Dense 模型	MoE 模型	差异
总参数量	N	4-8x N	MoE 更大
每 Token 激活参数	N	N/4 - N/8	MoE 更小
训练 FLOPs/Token	6N	6 * N_active	MoE 更省
内存占用	N	4-8x N	MoE 更大
推理延迟	基线	与 Dense 同等级	相当

MoE 的核心优势：用更大的总参数量获取更多知识容量，但每次推理只激活一小部分参数，从而在不增加推理成本的前提下提升模型能力。DeepSeek V3 的 671B 总参数/37B 激活参数就是这一思路的极致体现。

四、训练集群经济学

4.1 集群配置方案对比

规模	GPU 数量	GPU 类型	互联	投资额	适用场景
微型	8-32	H100	NVLink+PCIe	$300K-$1.2M	7B 微调 / 小模型训练
小型	64-256	H100	NVLink+IB	$2.5M-$10M	7B-13B 从头训练
中型	512-2048	H100	NVSwitch+IB	$20M-$80M	70B 训练
大型	4096-16384	H100/GB200	NVL72+IB	$200M-$800M	400B+ 训练
超大型	16384+	GB200 NVL72	专用网络	$1B+	1T+ 前沿模型

4.2 集群运营成本结构

成本项	占比 (年化)	说明
GPU 折旧	35%-45%	按 4-5 年折旧
电力	20%-30%	含冷却，PUE 1.1-1.4
网络设备	8%-12%	InfiniBand / NVLink 交换机
存储	5%-8%	分布式存储 + 检查点
人力运维	8%-12%	SRE + MLOps
场地/其他	5%-10%	机柜/物理安全/保险

4.3 电力成本深度分析

集群规模	功耗 (MW)	年电费 ($0.08/kWh)	年电费 ($0.15/kWh)
256x H100	~0.2 MW	$140K	$263K
2048x H100	~1.6 MW	$1.1M	$2.1M
16384x H100	~12.8 MW	$9M	$16.8M
100K GB200	~200 MW	$140M	$263M

五、各模型家族训练成本比较

5.1 成本效率矩阵

模型	训练成本 (估算)	性能 (MMLU)	成本效率 (MMLU/百万$)	关键效率技巧
GPT-4	$80M-$100M	~86%	~0.9	早期MoE (推测)
Claude 3.5 Sonnet	~$50M (推测)	~88%	~1.8	训练效率优化
Llama 3.1 405B	$60M-$100M	~88%	~1.0	长训练 + 大数据
DeepSeek V3	$5.6M	~87%	~15.5	MoE + 混合精度 + 低成本GPU
Qwen 2.5 72B	~$10M (推测)	~86%	~8.6	大数据 + 效率优化
Mistral Large 2	~$20M (推测)	~84%	~4.2	MoE 架构
Gemini 1.5 Pro	~$50M (推测)	~86%	~1.7	TPU 效率

5.2 DeepSeek 成本优势分析

DeepSeek V3 以 $5.6M 训练成本达到接近 GPT-4 水平的性能，成本效率领先一个数量级。其核心手段包括：

优化维度	DeepSeek V3 做法	效果
架构	MoE (671B/37B 激活)	训练 FLOPs 降低 ~10x
精度	FP8 混合精度训练	计算效率提升 ~2x
通信	自研通信优化	集群利用率 >60%
硬件	H800 (受限版 H100)	单位成本更低
数据	14.8T 高质量 tokens	数据效率高

六、收益递减分析

6.1 Loss 递减规律

Scaling Laws 的幂律本质意味着收益递减是内在的：

计算量倍增	Loss 下降幅度	性能感知
1x -> 10x	~15%-20%	明显提升
10x -> 100x	~12%-15%	可感知提升
100x -> 1000x	~10%-12%	需要 benchmark 测量
1000x -> 10000x	~8%-10%	边际价值递减

6.2 "智能天花板"假说

部分研究者认为纯文本预训练正在接近信息论极限：

信号	证据	确信度
Benchmark 饱和	MMLU/HellaSwag 等已接近人类上限	高
训练数据枯竭	高质量互联网文本约 10-15T tokens	中高
涌现能力放缓	新涌现能力的出现频率在下降	中
成本指数增长	每代模型训练成本 ~5-10x	高

6.3 突破方向

方向	核心思路	代表工作	成熟度
合成数据	用模型生成训练数据	Phi-3, Orca 系列	高
测试时计算	推理阶段投入更多计算	o1/o3, DeepSeek R1	高
多模态数据	视觉/音频扩充训练信号	Gemini, GPT-4o	高
长上下文	扩大上下文窗口	Gemini 1.5 (1M+)	中高
新架构	替代 Transformer	Mamba, RWKV, xLSTM	中
强化学习	RL 驱动的推理能力	o1/o3, R1	中高

七、小团队的策略指南

7.1 预算与可行性矩阵

预算区间	可行的训练规模	推荐策略
<$10K	7B 模型 LoRA 微调	微调开源模型
$10K-$100K	7B 全参数微调 / 13B LoRA	高质量数据 + 开源基座
$100K-$1M	7B 从头训练 / 70B 微调	聚焦垂直领域
$1M-$10M	13B-70B 从头训练	MoE + 合成数据
$10M-$100M	70B-400B 从头训练	需要顶级 ML 团队

7.2 关键决策：训练 vs 微调 vs API

维度	从头训练	微调	API 调用
成本	$100K-$100M+	$1K-$100K	$0.1-$10/1K req
可定制性	完全	高	低 (仅 prompt)
数据需求	TB 级	GB 级	无
团队需求	5-50+ ML 工程师	1-3 ML 工程师	0 (产品/应用层)
时间	月-年	天-周	即时
适合	需要独特能力/数据壁垒	领域适配	快速验证/通用任务

八、趋势判断

8.1 2026-2027 预测

趋势	确信度	对训练经济学的影响
测试时计算投入成为主流	高	推理成本上升，但能力大幅提升
合成数据占训练数据 >50%	中高	数据获取成本下降
FP4/FP8 训练成为默认	高	计算效率再提升 2x
10T+ token 训练成为标配	高	长训练策略普及
模型蒸馏/合并工具链成熟	中高	小团队进入门槛降低
自适应计算 (early exit)	中	推理效率优化空间

8.2 对投资者的启示

前沿训练是巨头游戏（$100M+ 预算），但效率创新是最大杠杆（DeepSeek 证明 10x 成本差距可被架构创新抹平）。推理经济学将主导行业（总 TCO 中推理占比超 80%）。数据质量重于数据数量。通过蒸馏、长训练和合成数据，7B-70B 小模型正迎来黄金时代。

Maurice | maurice_wen@proton.me