大语言模型技术演进全景

作者:Maurice | 灵阙学院

演进脉络

大语言模型(LLM)的发展可以划分为四个阶段:

阶段一:基础架构期(2017-2020)

里程碑:Transformer → GPT → BERT → GPT-2 → T5

这一阶段确立了 LLM 的核心架构。2017 年 Google 发表的 "Attention Is All You Need" 论文提出了 Transformer 架构,用自注意力机制(Self-Attention)替代了循环神经网络(RNN),实现了真正的并行计算。

两条技术路线在这一阶段形成:

  • Decoder-Only(GPT 系列):自回归生成,擅长文本生成
  • Encoder-Only(BERT 系列):双向理解,擅长分类/检索

阶段二:规模效应期(2020-2023)

里程碑:GPT-3 → PaLM → ChatGPT → GPT-4 → Claude 2

"Scaling Laws" 成为这一阶段的核心驱动力——模型参数量、训练数据量和计算量的增加带来近乎可预测的能力提升。

关键发现:

  • 涌现能力(Emergent Abilities):超过一定规模后出现的新能力
  • 上下文学习(In-Context Learning):无需微调,通过示例学习
  • 思维链(Chain-of-Thought):引导模型逐步推理

阶段三:对齐与产品化期(2023-2025)

里程碑:RLHF → Constitutional AI → Claude 3 → GPT-4o → Gemini → DeepSeek

这一阶段的核心主题是"让 LLM 有用且安全":

  • RLHF(人类反馈强化学习):让模型输出符合人类偏好
  • Constitutional AI:Anthropic 提出的基于原则的对齐方法
  • 多模态:文本、图像、音频、视频的统一处理
  • 长上下文:从 4K → 32K → 128K → 2M token
  • 推理能力:o1/o3、Claude Extended Thinking、Gemini Deep Think

阶段四:Agent 与系统化期(2025-)

里程碑:Claude 4 系列 → Agent SDK → MCP 标准化 → DeepSeek R1

LLM 从"单次问答"走向"自主执行多步骤任务":

  • 模型原生支持工具调用(Tool Use / Function Calling)
  • Agent 框架标准化(LangGraph、CrewAI、ADK)
  • 协议标准化(MCP)
  • 推理模型(Reasoning Models)成为主流

关键技术演进

注意力机制的进化

技术 出现时间 核心改进 复杂度
Multi-Head Attention 2017 多头并行注意力 O(n^2)
Sparse Attention 2019 稀疏注意力模式 O(n * sqrt(n))
Flash Attention 2022 IO-aware 精确注意力 O(n^2) 但常数小
Flash Attention 2 2023 更好的并行性 同上
Ring Attention 2023 跨设备长序列 O(n^2/devices)
MLA (Multi-Latent) 2024 低秩注意力投影 O(n * d_latent)

位置编码的演进

  • 绝对位置编码(原始 Transformer):固定位置向量
  • 相对位置编码(T5/ALiBi):编码相对距离
  • RoPE(旋转位置编码):通过旋转矩阵编码位置,支持长度外推
  • YaRN / NTK-Aware:进一步扩展 RoPE 到超长上下文

训练方法的演进

预训练(Pre-training)

  • 自回归语言建模:预测下一个 token
  • 掩码语言建模:预测被遮挡的 token
  • 数据配比优化:代码、数学、多语言的配比策略

后训练(Post-training)

  • SFT(监督微调):用指令数据微调
  • RLHF(强化学习+人类反馈):通过奖励模型优化
  • DPO(直接偏好优化):无需奖励模型的简化版 RLHF
  • Constitutional AI:基于原则的自我批评与修正
  • GRPO(Group Relative Policy Optimization):DeepSeek R1 使用的方法

推理优化

推理加速

技术 原理 加速比
KV-Cache 缓存已计算的 Key/Value 基础(必备)
Speculative Decoding 小模型预测 + 大模型验证 2-3x
PagedAttention 虚拟内存管理 KV-Cache 内存节省 2-4x
Continuous Batching 动态批处理请求 吞吐 2-5x
Quantization (GPTQ/AWQ) 权重量化 (4bit/8bit) 推理 2-4x
Mixture of Experts 稀疏激活部分参数 计算节省 4-8x

推理能力增强

**思维链(Chain-of-Thought)**系列:

Standard Prompting:
Q: 解决问题 → A: 直接答案(常出错)

Chain-of-Thought:
Q: 解决问题 → A: 步骤1...步骤2...步骤3...最终答案

Tree-of-Thought:
Q: 解决问题 → 分支1(评估)→ 分支2(评估)→ 选最优 → 答案

Self-Consistency:
Q: 解决问题 → 多次 CoT → 投票选最一致的答案

推理模型(Reasoning Models)

  • OpenAI o1/o3:内部思维链 + 强化学习训练
  • Claude Extended Thinking:显式思考过程
  • DeepSeek R1:纯 RL 训练出的推理能力
  • Gemini Deep Think:多步推理 + 搜索验证

开源 vs 闭源格局

闭源模型

模型 厂商 特点
GPT-4o/o3 OpenAI 多模态、强推理
Claude 4 系列 Anthropic 长上下文、安全对齐
Gemini 2.x Google 超长上下文、多模态

开源模型

模型 厂商 参数量 特点
Llama 3.1/3.2 Meta 8B-405B 最大开源基座
DeepSeek R1 幻方量化 671B(MoE) 推理能力媲美 o1
Qwen 2.5 阿里 0.5B-72B 中文能力强
Mistral Large Mistral 123B 欧洲代表
Yi-Lightning 零一万物 - 中国多模态

格局判断

  1. 闭源领先:在最顶级能力(如 AGI benchmark、复杂推理)上,闭源仍领先
  2. 开源追赶:DeepSeek R1 证明了开源模型可以在推理任务上接近闭源水平
  3. 场景分化:通用能力看闭源,垂直场景微调看开源
  4. 成本驱动:对延迟和成本敏感的场景,开源 + 量化部署更经济

中国 LLM 生态

第一梯队

  • DeepSeek:推理能力突出(R1),MoE 架构创新
  • Qwen(阿里):全系列覆盖(0.5B-72B),开源生态完善
  • GLM(智谱):多模态能力强,中文理解优秀

第二梯队

  • Yi(零一万物):多模态、长上下文
  • Baichuan:中文优化、商业化落地
  • MiniMax:语音 + 视频多模态

关键差异化

与美国模型相比,中国 LLM 的差异化体现在:

  1. 中文理解:在中文法律、财税、政务等专业场景表现更好
  2. 成本效率:DeepSeek 以远低于 OpenAI 的训练成本达到相近效果
  3. 部署灵活:国产模型更容易在国内合规环境中部署
  4. 行业适配:针对中国行业特色(如 A 股、中国税法)有专门优化

趋势展望

短期(2026)

  1. 推理模型标配化:所有主流模型都将具备显式推理能力
  2. 多模态统一:文本/图像/音频/视频的统一处理成为默认
  3. Agent 原生化:模型层面原生支持工具调用和多步规划

中期(2027-2028)

  1. 模型架构分化:MoE + Attention 变体成为主流
  2. 端云协同:小模型端侧 + 大模型云端的混合推理
  3. 世界模型:从语言模型走向理解物理世界规律的模型

需要关注的风险

  1. 训练数据枯竭:高质量文本数据的增量正在放缓
  2. 能源约束:大模型训练的能耗引发环境和成本担忧
  3. 监管不确定性:各国对 AI 的监管政策尚在形成中
  4. 安全对齐:模型能力增长 vs 安全控制的平衡

Maurice | maurice_wen@proton.me