Scaling Law的边界:大模型何时到顶
AI 导读
Scaling Law的边界:大模型何时到顶 Scaling Law是驱动大模型进步的核心引擎。从Kaplan到Chinchilla,从GPT-3到GPT-5,"越大越好"的范式塑造了整个行业。但这条曲线是否有尽头?本文深入分析Scaling Law的理论基础、实证证据、边界条件与"后Scaling"时代的技术路径。 一、Scaling Law基础 1.1 什么是Scaling Law...
Scaling Law的边界:大模型何时到顶
Scaling Law是驱动大模型进步的核心引擎。从Kaplan到Chinchilla,从GPT-3到GPT-5,"越大越好"的范式塑造了整个行业。但这条曲线是否有尽头?本文深入分析Scaling Law的理论基础、实证证据、边界条件与"后Scaling"时代的技术路径。
一、Scaling Law基础
1.1 什么是Scaling Law
Scaling Law描述的是大模型性能(通常用loss衡量)与三个核心变量之间的幂律关系:
L(N, D, C) ∝ N^(-α) + D^(-β) + C^(-γ)
其中:
L = 交叉熵损失 (Cross-entropy Loss)
N = 模型参数量 (Parameters)
D = 训练数据量 (Data, tokens)
C = 计算预算 (Compute, FLOPs)
α, β, γ = 幂律指数
核心含义:增加参数、数据或计算中的任何一个,模型性能都会呈幂律提升,且在很大范围内不会饱和。
1.2 关键研究里程碑
| 研究 | 年份 | 核心发现 |
|---|---|---|
| Kaplan et al. (OpenAI) | 2020 | 首次系统性描述LLM Scaling Law |
| Hoffmann et al. (Chinchilla) | 2022 | 参数与数据应等比例扩展 |
| Muennighoff et al. | 2023 | 数据重复的影响 |
| Sardana & Frankle | 2024 | 推理时Scaling Law |
| OpenAI o1/o3 | 2024-2025 | 测试时计算Scaling |
| DeepSeek-R1 | 2025 | 强化学习Scaling |
1.3 Kaplan vs Chinchilla
两种Scaling Law的核心分歧:
Kaplan (2020) 的建议:
├── 固定计算预算时,优先增大模型
├── N应增长更快,D相对可以少
├── 导致了GPT-3 (175B参数, 300B tokens)
└── "参数优先"策略
Chinchilla (2022) 的修正:
├── 最优策略:N和D应同比例增长
├── 每个参数需要约20个训练token
├── Chinchilla (70B参数, 1.4T tokens) 胜过 Gopher (280B参数, 300B tokens)
├── 导致了Llama系列的训练策略
└── "数据同等重要"策略
实际影响:
GPT-3: 175B params, 300B tokens → 参数过多、数据不足
Chinchilla: 70B params, 1.4T tokens → 最优配比
Llama 2: 70B params, 2T tokens → 超过Chinchilla最优
Llama 3: 70B params, 15T tokens → 远超Chinchilla最优
└── 为什么超训练也有效?因为推理成本下降了
二、Scaling Law的实证证据
2.1 预训练Loss的平滑下降
历史数据显示,预训练loss随计算量的增加呈现极其平滑的幂律下降:
计算量(PF-days) vs 预训练Loss
10^0 ████████████████████████████████ Loss ≈ 3.5
10^1 ██████████████████████████ Loss ≈ 3.0
10^2 ████████████████████ Loss ≈ 2.6
10^3 ██████████████████ Loss ≈ 2.3
10^4 ████████████████ Loss ≈ 2.1
10^5 ██████████████ Loss ≈ 1.9
10^6 ████████████ Loss ≈ 1.7 (GPT-4级别)
10^7 ██████████ Loss ≈ 1.6 (GPT-5级别, 估)
幂律关系: L ∝ C^(-0.05)
每增加10倍计算,Loss下降约12%
2.2 下游任务的涌现能力
与预训练loss的平滑下降不同,某些下游任务表现出"涌现能力"——在某个临界规模突然从接近随机提升到显著超过随机:
| 能力 | 涌现规模(估) | 说明 |
|---|---|---|
| 基础算术 | ~1B | 简单加减法 |
| 翻译 | ~10B | 多语言翻译 |
| 多步推理 | ~50B | 链式推理 |
| 代码生成 | ~50B | 完整函数编写 |
| 高级数学 | ~100B+ | 竞赛数学 |
| 常识推理 | ~100B+ | 复杂因果推理 |
涌现能力的争议:
2023年Schaeffer等人指出,"涌现"可能是评测指标选择的假象——当使用连续指标(如概率校准)而非离散指标(如准确率)时,性能提升是渐进的而非突然的。这一争论至今未有定论。
2.3 训练效率的Scaling
不仅模型变大,训练效率也在持续提升:
算法效率提升(达到GPT-3级别性能所需的计算量):
2020 (GPT-3): ████████████████████ 100%
2021 (优化方法): ████████████████ ~80%
2022 (Chinchilla): ████████████ ~60%
2023 (Llama): ████████ ~40%
2024 (Llama 3): ██████ ~30%
2025 (最新方法): ████ ~20%
每年算法效率提升约30-40%(不含硬件提升)
三、Scaling Law的边界
3.1 数据墙(Data Wall)
核心问题: 高质量文本数据正在耗尽。
互联网文本数据估算:
高质量Web文本: ~5-10T tokens(已被大量使用)
书籍/学术: ~1-2T tokens
代码: ~1-2T tokens
专有数据(企业/政府): ~10T+ tokens(获取困难)
2025年前沿模型训练数据量:
├── GPT-4: ~13T tokens
├── Llama 3: ~15T tokens
├── Gemini 2: ~估20T+ tokens(含多模态)
└── Claude 3.5: 未公开
高质量独特文本总量 ≈ 10-15T tokens
结论: 已接近或达到高质量Web文本的上限
应对策略:
- 合成数据(Synthetic Data)
- 多模态数据(图像/视频/音频转为训练信号)
- 数据重复与课程学习
- 多语言数据利用
- 强化学习产生新知识
3.2 计算墙(Compute Wall)
| 限制因素 | 当前状态 | 瓶颈性 |
|---|---|---|
| GPU供应 | H100产能约200万片/年 | 严重 |
| 电力供应 | 单集群>100MW | 中等 |
| 内存带宽 | HBM3e产能受限 | 严重 |
| 散热 | 液冷成为必须 | 中等 |
| 资金 | $500M+训练一次 | 严重 |
| 集群可靠性 | 万卡集群故障频繁 | 中等 |
计算成本增长趋势:
前沿模型训练成本(估算):
├── 2020 GPT-3: $5M
├── 2023 GPT-4: $100M
├── 2025 GPT-5: $300-500M
├── 2026 下一代: $1B+
└── 2028 (推测): $5-10B
这种指数增长是否可持续?
当前全球AI训练总投入约$50-100B/年
单次训练达到$10B意味着只有2-3家公司能参与
3.3 能力墙(Capability Wall)
某些能力可能存在Scaling无法突破的硬边界:
Scaling有效的能力:
├── 知识记忆与检索 ─── 数据越多知识越丰富 ✓
├── 语言理解与生成 ─── 持续提升 ✓
├── 代码生成 ────────── 快速提升 ✓
├── 翻译 ───────────── 接近人类水平 ✓
└── 模式识别 ─────── 数据驱动 ✓
Scaling瓶颈的能力:
├── 精确数学计算 ── Token预测范式不适合 △
├── 长序列规划 ──── 上下文窗口限制 △
├── 因果推理 ────── 需要世界模型 △
├── 持续学习 ────── 静态权重限制 △
└── 常识物理 ────── 文本数据不足 △
Scaling可能无法解决的能力:
├── 自我意识/意识 ─ 定义不明确 ✗
├── 真正的创造力 ─ 超越训练分布 ✗?
├── 稳定可靠推理 ─ 概率性本质限制 ✗?
└── 完美事实性 ── 幻觉是根本问题 ✗?
3.4 经济墙(Economic Wall)
边际收益递减分析:
假设:每10倍计算量提升一个"能力等级"
从GPT-3到GPT-4(10倍计算增长):
成本增加: ~$95M
能力提升: 革命性(多模态、推理能力显著增强)
商业价值: 极高(打开新市场)
从GPT-4到GPT-5(10倍计算增长):
成本增加: ~$400M
能力提升: 显著但增量性
商业价值: 高(现有市场深化)
从GPT-5到GPT-6(10倍计算增长,假设):
成本增加: ~$4B+
能力提升: 边际递减
商业价值: 不确定
关键问题:
用户愿意为"从95分到97分"的提升多付多少钱?
企业ROI能否支撑$10B级别的训练投入?
四、后Scaling时代的技术路径
4.1 测试时计算Scaling(Test-time Compute)
OpenAI的o1/o3系列开辟了新的Scaling维度:
传统Scaling:
在训练时投入更多计算 → 更好的模型权重
测试时计算Scaling:
在推理时投入更多计算 → 更好的输出质量
核心机制:
├── 链式思考(Chain-of-Thought) → 扩展推理步骤
├── 搜索与验证(Search & Verify) → 多路径探索
├── 自我纠错(Self-correction) → 迭代改进
├── 共识投票(Majority Voting) → 多次生成取最佳
└── 过程奖励模型(PRM) → 奖励正确推理步骤
经济逻辑:
训练成本是一次性的,推理成本是按需的
用户愿意为"准确的答案"支付更多推理时间
对于高价值问题(数学、代码、科研),更多思考时间 = 更高价值
4.2 数据效率Scaling
提升数据效率的方法:
1. 合成数据生成
└── 用强模型生成弱模型的训练数据
└── 风险:模型坍缩(Model Collapse)
2. 主动学习(Active Learning)
└── 选择信息量最大的数据进行训练
└── 减少冗余数据
3. 课程学习(Curriculum Learning)
└── 从简单到复杂排列训练数据
└── 提升学习效率
4. 数据混合优化(Data Mixing)
└── 优化不同领域数据的配比
└── DoReMi等自动配比方法
5. 多模态预训练
└── 利用图像/视频中的隐含知识
└── 突破文本数据上限
4.3 架构创新
| 方向 | 代表 | 优势 | 状态 |
|---|---|---|---|
| MoE (混合专家) | Mixtral, DeepSeek | 推理效率高 | 已成熟 |
| SSM (状态空间) | Mamba | 长序列效率 | 验证中 |
| 混合架构 | Jamba, StripedHyena | 结合优势 | 验证中 |
| 稀疏注意力 | 各种变体 | 减少计算量 | 部分采用 |
| 检索增强 | RAG, RETRO | 外部知识 | 广泛使用 |
| 工具增强 | Toolformer | 突破能力边界 | 发展中 |
4.4 强化学习与自我改进
DeepSeek-R1和OpenAI o系列揭示了一条新路径:
强化学习驱动的能力提升:
传统路径:
更多数据 → 更大模型 → 更低Loss → 更好性能
RL新路径:
固定模型 → 强化学习 → 发现新推理策略 → 更好性能
关键要素:
├── 可验证奖励:数学/代码/逻辑题有正确答案
├── 过程奖励:奖励正确的中间推理步骤
├── 自我博弈:模型与自身对弈产生训练信号
└── 探索与利用:鼓励发现新的解题路径
局限:
├── 需要可验证的任务(不适用于开放式问题)
├── 奖励设计困难(reward hacking风险)
├── 计算成本仍然很高
└── 通用性待验证
五、行业观点与预测
5.1 不同阵营的观点
"Scaling还远未到顶" 阵营:
├── OpenAI (Sam Altman): "We know how to scale"
├── Anthropic (Dario Amodei): 预计2026-2027达到"博士级"AI
├── Google (Demis Hassabis): 原生多模态开辟新Scaling维度
└── 论据:测试时计算+RL+合成数据=新的Scaling曲线
"Scaling边际递减" 阵营:
├── Meta AI (Yann LeCun): 需要新范式,不仅仅是Scaling
├── 部分学术界: Transformer架构的根本限制
├── 部分VC: 投资回报率下降的信号
└── 论据:高质量数据枯竭+计算成本指数增长
"混合Scaling" 共识(多数):
├── 预训练Scaling仍有空间但收益递减
├── 测试时计算Scaling是重要补充
├── 数据效率和架构创新同样关键
└── 不同任务的Scaling天花板不同
5.2 预测时间线
| 时间 | 预测 | 信心度 |
|---|---|---|
| 2026 | 预训练Scaling放缓但未停止 | 高 |
| 2026 | 测试时计算Scaling成为主流 | 高 |
| 2027 | 合成数据成为主要训练数据来源 | 中 |
| 2027 | 新架构(非纯Transformer)进入主流 | 中 |
| 2028 | 自主科研AI(某些领域) | 低-中 |
| 2030 | AGI(强人工智能) | 低(定义依赖) |
六、对从业者的启示
6.1 Scaling Law告诉我们什么
- 短期(1-2年):预训练Scaling仍然有效,但边际成本快速上升
- 中期(2-3年):测试时计算和RL将成为性能提升的主要来源
- 长期(3-5年):可能需要范式级别的架构创新
6.2 实践建议
- 不要盲目追求最大模型:对大多数应用,70B级别开源模型+微调已经足够
- 投资数据质量:数据的质量比数量更重要
- 关注推理效率:推理成本是长期运营成本的主要组成
- 保持架构灵活性:不要过度绑定单一技术路线
- 构建评测能力:能够量化Scaling对业务指标的实际影响
Scaling Law不会"撞墙"——它会像物理学中的其他定律一样,在适用范围内继续有效,同时人类会找到新的维度去"Scale"。真正的问题不是"是否到顶",而是"下一个Scaling的维度是什么"。
Maurice | maurice_wen@proton.me