大语言模型技术演进全景
AI 导读
大语言模型技术演进全景 作者:Maurice | 灵阙学院 演进脉络 大语言模型(LLM)的发展可以划分为四个阶段: 阶段一:基础架构期(2017-2020) 里程碑:Transformer → GPT → BERT → GPT-2 → T5 这一阶段确立了 LLM 的核心架构。2017 年 Google 发表的 "Attention Is All You Need" 论文提出了...
大语言模型技术演进全景
作者:Maurice | 灵阙学院
演进脉络
大语言模型(LLM)的发展可以划分为四个阶段:
阶段一:基础架构期(2017-2020)
里程碑:Transformer → GPT → BERT → GPT-2 → T5
这一阶段确立了 LLM 的核心架构。2017 年 Google 发表的 "Attention Is All You Need" 论文提出了 Transformer 架构,用自注意力机制(Self-Attention)替代了循环神经网络(RNN),实现了真正的并行计算。
两条技术路线在这一阶段形成:
- Decoder-Only(GPT 系列):自回归生成,擅长文本生成
- Encoder-Only(BERT 系列):双向理解,擅长分类/检索
阶段二:规模效应期(2020-2023)
里程碑:GPT-3 → PaLM → ChatGPT → GPT-4 → Claude 2
"Scaling Laws" 成为这一阶段的核心驱动力——模型参数量、训练数据量和计算量的增加带来近乎可预测的能力提升。
关键发现:
- 涌现能力(Emergent Abilities):超过一定规模后出现的新能力
- 上下文学习(In-Context Learning):无需微调,通过示例学习
- 思维链(Chain-of-Thought):引导模型逐步推理
阶段三:对齐与产品化期(2023-2025)
里程碑:RLHF → Constitutional AI → Claude 3 → GPT-4o → Gemini → DeepSeek
这一阶段的核心主题是"让 LLM 有用且安全":
- RLHF(人类反馈强化学习):让模型输出符合人类偏好
- Constitutional AI:Anthropic 提出的基于原则的对齐方法
- 多模态:文本、图像、音频、视频的统一处理
- 长上下文:从 4K → 32K → 128K → 2M token
- 推理能力:o1/o3、Claude Extended Thinking、Gemini Deep Think
阶段四:Agent 与系统化期(2025-)
里程碑:Claude 4 系列 → Agent SDK → MCP 标准化 → DeepSeek R1
LLM 从"单次问答"走向"自主执行多步骤任务":
- 模型原生支持工具调用(Tool Use / Function Calling)
- Agent 框架标准化(LangGraph、CrewAI、ADK)
- 协议标准化(MCP)
- 推理模型(Reasoning Models)成为主流
关键技术演进
注意力机制的进化
| 技术 | 出现时间 | 核心改进 | 复杂度 |
|---|---|---|---|
| Multi-Head Attention | 2017 | 多头并行注意力 | O(n^2) |
| Sparse Attention | 2019 | 稀疏注意力模式 | O(n * sqrt(n)) |
| Flash Attention | 2022 | IO-aware 精确注意力 | O(n^2) 但常数小 |
| Flash Attention 2 | 2023 | 更好的并行性 | 同上 |
| Ring Attention | 2023 | 跨设备长序列 | O(n^2/devices) |
| MLA (Multi-Latent) | 2024 | 低秩注意力投影 | O(n * d_latent) |
位置编码的演进
- 绝对位置编码(原始 Transformer):固定位置向量
- 相对位置编码(T5/ALiBi):编码相对距离
- RoPE(旋转位置编码):通过旋转矩阵编码位置,支持长度外推
- YaRN / NTK-Aware:进一步扩展 RoPE 到超长上下文
训练方法的演进
预训练(Pre-training)
- 自回归语言建模:预测下一个 token
- 掩码语言建模:预测被遮挡的 token
- 数据配比优化:代码、数学、多语言的配比策略
后训练(Post-training)
- SFT(监督微调):用指令数据微调
- RLHF(强化学习+人类反馈):通过奖励模型优化
- DPO(直接偏好优化):无需奖励模型的简化版 RLHF
- Constitutional AI:基于原则的自我批评与修正
- GRPO(Group Relative Policy Optimization):DeepSeek R1 使用的方法
推理优化
推理加速
| 技术 | 原理 | 加速比 |
|---|---|---|
| KV-Cache | 缓存已计算的 Key/Value | 基础(必备) |
| Speculative Decoding | 小模型预测 + 大模型验证 | 2-3x |
| PagedAttention | 虚拟内存管理 KV-Cache | 内存节省 2-4x |
| Continuous Batching | 动态批处理请求 | 吞吐 2-5x |
| Quantization (GPTQ/AWQ) | 权重量化 (4bit/8bit) | 推理 2-4x |
| Mixture of Experts | 稀疏激活部分参数 | 计算节省 4-8x |
推理能力增强
**思维链(Chain-of-Thought)**系列:
Standard Prompting:
Q: 解决问题 → A: 直接答案(常出错)
Chain-of-Thought:
Q: 解决问题 → A: 步骤1...步骤2...步骤3...最终答案
Tree-of-Thought:
Q: 解决问题 → 分支1(评估)→ 分支2(评估)→ 选最优 → 答案
Self-Consistency:
Q: 解决问题 → 多次 CoT → 投票选最一致的答案
推理模型(Reasoning Models):
- OpenAI o1/o3:内部思维链 + 强化学习训练
- Claude Extended Thinking:显式思考过程
- DeepSeek R1:纯 RL 训练出的推理能力
- Gemini Deep Think:多步推理 + 搜索验证
开源 vs 闭源格局
闭源模型
| 模型 | 厂商 | 特点 |
|---|---|---|
| GPT-4o/o3 | OpenAI | 多模态、强推理 |
| Claude 4 系列 | Anthropic | 长上下文、安全对齐 |
| Gemini 2.x | 超长上下文、多模态 |
开源模型
| 模型 | 厂商 | 参数量 | 特点 |
|---|---|---|---|
| Llama 3.1/3.2 | Meta | 8B-405B | 最大开源基座 |
| DeepSeek R1 | 幻方量化 | 671B(MoE) | 推理能力媲美 o1 |
| Qwen 2.5 | 阿里 | 0.5B-72B | 中文能力强 |
| Mistral Large | Mistral | 123B | 欧洲代表 |
| Yi-Lightning | 零一万物 | - | 中国多模态 |
格局判断
- 闭源领先:在最顶级能力(如 AGI benchmark、复杂推理)上,闭源仍领先
- 开源追赶:DeepSeek R1 证明了开源模型可以在推理任务上接近闭源水平
- 场景分化:通用能力看闭源,垂直场景微调看开源
- 成本驱动:对延迟和成本敏感的场景,开源 + 量化部署更经济
中国 LLM 生态
第一梯队
- DeepSeek:推理能力突出(R1),MoE 架构创新
- Qwen(阿里):全系列覆盖(0.5B-72B),开源生态完善
- GLM(智谱):多模态能力强,中文理解优秀
第二梯队
- Yi(零一万物):多模态、长上下文
- Baichuan:中文优化、商业化落地
- MiniMax:语音 + 视频多模态
关键差异化
与美国模型相比,中国 LLM 的差异化体现在:
- 中文理解:在中文法律、财税、政务等专业场景表现更好
- 成本效率:DeepSeek 以远低于 OpenAI 的训练成本达到相近效果
- 部署灵活:国产模型更容易在国内合规环境中部署
- 行业适配:针对中国行业特色(如 A 股、中国税法)有专门优化
趋势展望
短期(2026)
- 推理模型标配化:所有主流模型都将具备显式推理能力
- 多模态统一:文本/图像/音频/视频的统一处理成为默认
- Agent 原生化:模型层面原生支持工具调用和多步规划
中期(2027-2028)
- 模型架构分化:MoE + Attention 变体成为主流
- 端云协同:小模型端侧 + 大模型云端的混合推理
- 世界模型:从语言模型走向理解物理世界规律的模型
需要关注的风险
- 训练数据枯竭:高质量文本数据的增量正在放缓
- 能源约束:大模型训练的能耗引发环境和成本担忧
- 监管不确定性:各国对 AI 的监管政策尚在形成中
- 安全对齐:模型能力增长 vs 安全控制的平衡
Maurice | maurice_wen@proton.me