Scaling Law的边界:大模型何时到顶

Scaling Law是驱动大模型进步的核心引擎。从Kaplan到Chinchilla,从GPT-3到GPT-5,"越大越好"的范式塑造了整个行业。但这条曲线是否有尽头?本文深入分析Scaling Law的理论基础、实证证据、边界条件与"后Scaling"时代的技术路径。

一、Scaling Law基础

1.1 什么是Scaling Law

Scaling Law描述的是大模型性能(通常用loss衡量)与三个核心变量之间的幂律关系:

L(N, D, C) ∝ N^(-α) + D^(-β) + C^(-γ)

其中:
  L = 交叉熵损失 (Cross-entropy Loss)
  N = 模型参数量 (Parameters)
  D = 训练数据量 (Data, tokens)
  C = 计算预算 (Compute, FLOPs)
  α, β, γ = 幂律指数

核心含义:增加参数、数据或计算中的任何一个,模型性能都会呈幂律提升,且在很大范围内不会饱和。

1.2 关键研究里程碑

研究 年份 核心发现
Kaplan et al. (OpenAI) 2020 首次系统性描述LLM Scaling Law
Hoffmann et al. (Chinchilla) 2022 参数与数据应等比例扩展
Muennighoff et al. 2023 数据重复的影响
Sardana & Frankle 2024 推理时Scaling Law
OpenAI o1/o3 2024-2025 测试时计算Scaling
DeepSeek-R1 2025 强化学习Scaling

1.3 Kaplan vs Chinchilla

两种Scaling Law的核心分歧:

Kaplan (2020) 的建议:
├── 固定计算预算时,优先增大模型
├── N应增长更快,D相对可以少
├── 导致了GPT-3 (175B参数, 300B tokens)
└── "参数优先"策略

Chinchilla (2022) 的修正:
├── 最优策略:N和D应同比例增长
├── 每个参数需要约20个训练token
├── Chinchilla (70B参数, 1.4T tokens) 胜过 Gopher (280B参数, 300B tokens)
├── 导致了Llama系列的训练策略
└── "数据同等重要"策略

实际影响:
  GPT-3:     175B params, 300B tokens    → 参数过多、数据不足
  Chinchilla: 70B params, 1.4T tokens    → 最优配比
  Llama 2:    70B params, 2T tokens      → 超过Chinchilla最优
  Llama 3:    70B params, 15T tokens     → 远超Chinchilla最优
  └── 为什么超训练也有效?因为推理成本下降了

二、Scaling Law的实证证据

2.1 预训练Loss的平滑下降

历史数据显示,预训练loss随计算量的增加呈现极其平滑的幂律下降:

计算量(PF-days) vs 预训练Loss

10^0    ████████████████████████████████  Loss ≈ 3.5
10^1    ██████████████████████████        Loss ≈ 3.0
10^2    ████████████████████              Loss ≈ 2.6
10^3    ██████████████████                Loss ≈ 2.3
10^4    ████████████████                  Loss ≈ 2.1
10^5    ██████████████                    Loss ≈ 1.9
10^6    ████████████                      Loss ≈ 1.7 (GPT-4级别)
10^7    ██████████                        Loss ≈ 1.6 (GPT-5级别, 估)

幂律关系: L ∝ C^(-0.05)
每增加10倍计算,Loss下降约12%

2.2 下游任务的涌现能力

与预训练loss的平滑下降不同,某些下游任务表现出"涌现能力"——在某个临界规模突然从接近随机提升到显著超过随机:

能力 涌现规模(估) 说明
基础算术 ~1B 简单加减法
翻译 ~10B 多语言翻译
多步推理 ~50B 链式推理
代码生成 ~50B 完整函数编写
高级数学 ~100B+ 竞赛数学
常识推理 ~100B+ 复杂因果推理

涌现能力的争议:

2023年Schaeffer等人指出,"涌现"可能是评测指标选择的假象——当使用连续指标(如概率校准)而非离散指标(如准确率)时,性能提升是渐进的而非突然的。这一争论至今未有定论。

2.3 训练效率的Scaling

不仅模型变大,训练效率也在持续提升:

算法效率提升(达到GPT-3级别性能所需的计算量):

2020 (GPT-3):      ████████████████████  100%
2021 (优化方法):    ████████████████      ~80%
2022 (Chinchilla):  ████████████          ~60%
2023 (Llama):       ████████              ~40%
2024 (Llama 3):     ██████                ~30%
2025 (最新方法):    ████                  ~20%

每年算法效率提升约30-40%(不含硬件提升)

三、Scaling Law的边界

3.1 数据墙(Data Wall)

核心问题: 高质量文本数据正在耗尽。

互联网文本数据估算:

高质量Web文本:     ~5-10T tokens(已被大量使用)
书籍/学术:         ~1-2T tokens
代码:              ~1-2T tokens
专有数据(企业/政府): ~10T+ tokens(获取困难)

2025年前沿模型训练数据量:
├── GPT-4:   ~13T tokens
├── Llama 3: ~15T tokens
├── Gemini 2: ~估20T+ tokens(含多模态)
└── Claude 3.5: 未公开

高质量独特文本总量 ≈ 10-15T tokens
结论: 已接近或达到高质量Web文本的上限

应对策略:

  • 合成数据(Synthetic Data)
  • 多模态数据(图像/视频/音频转为训练信号)
  • 数据重复与课程学习
  • 多语言数据利用
  • 强化学习产生新知识

3.2 计算墙(Compute Wall)

限制因素 当前状态 瓶颈性
GPU供应 H100产能约200万片/年 严重
电力供应 单集群>100MW 中等
内存带宽 HBM3e产能受限 严重
散热 液冷成为必须 中等
资金 $500M+训练一次 严重
集群可靠性 万卡集群故障频繁 中等

计算成本增长趋势:

前沿模型训练成本(估算):
├── 2020 GPT-3:       $5M
├── 2023 GPT-4:       $100M
├── 2025 GPT-5:       $300-500M
├── 2026 下一代:      $1B+
└── 2028 (推测):      $5-10B

这种指数增长是否可持续?
当前全球AI训练总投入约$50-100B/年
单次训练达到$10B意味着只有2-3家公司能参与

3.3 能力墙(Capability Wall)

某些能力可能存在Scaling无法突破的硬边界:

Scaling有效的能力:
├── 知识记忆与检索 ─── 数据越多知识越丰富 ✓
├── 语言理解与生成 ─── 持续提升 ✓
├── 代码生成 ────────── 快速提升 ✓
├── 翻译 ───────────── 接近人类水平 ✓
└── 模式识别 ─────── 数据驱动 ✓

Scaling瓶颈的能力:
├── 精确数学计算 ── Token预测范式不适合 △
├── 长序列规划 ──── 上下文窗口限制 △
├── 因果推理 ────── 需要世界模型 △
├── 持续学习 ────── 静态权重限制 △
└── 常识物理 ────── 文本数据不足 △

Scaling可能无法解决的能力:
├── 自我意识/意识 ─ 定义不明确 ✗
├── 真正的创造力 ─ 超越训练分布 ✗?
├── 稳定可靠推理 ─ 概率性本质限制 ✗?
└── 完美事实性 ── 幻觉是根本问题 ✗?

3.4 经济墙(Economic Wall)

边际收益递减分析:

假设:每10倍计算量提升一个"能力等级"

从GPT-3到GPT-4(10倍计算增长):
  成本增加: ~$95M
  能力提升: 革命性(多模态、推理能力显著增强)
  商业价值: 极高(打开新市场)

从GPT-4到GPT-5(10倍计算增长):
  成本增加: ~$400M
  能力提升: 显著但增量性
  商业价值: 高(现有市场深化)

从GPT-5到GPT-6(10倍计算增长,假设):
  成本增加: ~$4B+
  能力提升: 边际递减
  商业价值: 不确定

关键问题:
  用户愿意为"从95分到97分"的提升多付多少钱?
  企业ROI能否支撑$10B级别的训练投入?

四、后Scaling时代的技术路径

4.1 测试时计算Scaling(Test-time Compute)

OpenAI的o1/o3系列开辟了新的Scaling维度:

传统Scaling:
  在训练时投入更多计算 → 更好的模型权重

测试时计算Scaling:
  在推理时投入更多计算 → 更好的输出质量

核心机制:
├── 链式思考(Chain-of-Thought) → 扩展推理步骤
├── 搜索与验证(Search & Verify) → 多路径探索
├── 自我纠错(Self-correction) → 迭代改进
├── 共识投票(Majority Voting) → 多次生成取最佳
└── 过程奖励模型(PRM) → 奖励正确推理步骤

经济逻辑:
  训练成本是一次性的,推理成本是按需的
  用户愿意为"准确的答案"支付更多推理时间
  对于高价值问题(数学、代码、科研),更多思考时间 = 更高价值

4.2 数据效率Scaling

提升数据效率的方法:

1. 合成数据生成
   └── 用强模型生成弱模型的训练数据
   └── 风险:模型坍缩(Model Collapse)

2. 主动学习(Active Learning)
   └── 选择信息量最大的数据进行训练
   └── 减少冗余数据

3. 课程学习(Curriculum Learning)
   └── 从简单到复杂排列训练数据
   └── 提升学习效率

4. 数据混合优化(Data Mixing)
   └── 优化不同领域数据的配比
   └── DoReMi等自动配比方法

5. 多模态预训练
   └── 利用图像/视频中的隐含知识
   └── 突破文本数据上限

4.3 架构创新

方向 代表 优势 状态
MoE (混合专家) Mixtral, DeepSeek 推理效率高 已成熟
SSM (状态空间) Mamba 长序列效率 验证中
混合架构 Jamba, StripedHyena 结合优势 验证中
稀疏注意力 各种变体 减少计算量 部分采用
检索增强 RAG, RETRO 外部知识 广泛使用
工具增强 Toolformer 突破能力边界 发展中

4.4 强化学习与自我改进

DeepSeek-R1和OpenAI o系列揭示了一条新路径:

强化学习驱动的能力提升:

传统路径:
  更多数据 → 更大模型 → 更低Loss → 更好性能

RL新路径:
  固定模型 → 强化学习 → 发现新推理策略 → 更好性能

关键要素:
├── 可验证奖励:数学/代码/逻辑题有正确答案
├── 过程奖励:奖励正确的中间推理步骤
├── 自我博弈:模型与自身对弈产生训练信号
└── 探索与利用:鼓励发现新的解题路径

局限:
├── 需要可验证的任务(不适用于开放式问题)
├── 奖励设计困难(reward hacking风险)
├── 计算成本仍然很高
└── 通用性待验证

五、行业观点与预测

5.1 不同阵营的观点

"Scaling还远未到顶" 阵营:
├── OpenAI (Sam Altman): "We know how to scale"
├── Anthropic (Dario Amodei): 预计2026-2027达到"博士级"AI
├── Google (Demis Hassabis): 原生多模态开辟新Scaling维度
└── 论据:测试时计算+RL+合成数据=新的Scaling曲线

"Scaling边际递减" 阵营:
├── Meta AI (Yann LeCun): 需要新范式,不仅仅是Scaling
├── 部分学术界: Transformer架构的根本限制
├── 部分VC: 投资回报率下降的信号
└── 论据:高质量数据枯竭+计算成本指数增长

"混合Scaling" 共识(多数):
├── 预训练Scaling仍有空间但收益递减
├── 测试时计算Scaling是重要补充
├── 数据效率和架构创新同样关键
└── 不同任务的Scaling天花板不同

5.2 预测时间线

时间 预测 信心度
2026 预训练Scaling放缓但未停止
2026 测试时计算Scaling成为主流
2027 合成数据成为主要训练数据来源
2027 新架构(非纯Transformer)进入主流
2028 自主科研AI(某些领域) 低-中
2030 AGI(强人工智能) 低(定义依赖)

六、对从业者的启示

6.1 Scaling Law告诉我们什么

  1. 短期(1-2年):预训练Scaling仍然有效,但边际成本快速上升
  2. 中期(2-3年):测试时计算和RL将成为性能提升的主要来源
  3. 长期(3-5年):可能需要范式级别的架构创新

6.2 实践建议

  • 不要盲目追求最大模型:对大多数应用,70B级别开源模型+微调已经足够
  • 投资数据质量:数据的质量比数量更重要
  • 关注推理效率:推理成本是长期运营成本的主要组成
  • 保持架构灵活性:不要过度绑定单一技术路线
  • 构建评测能力:能够量化Scaling对业务指标的实际影响

Scaling Law不会"撞墙"——它会像物理学中的其他定律一样,在适用范围内继续有效,同时人类会找到新的维度去"Scale"。真正的问题不是"是否到顶",而是"下一个Scaling的维度是什么"。


Maurice | maurice_wen@proton.me