大语言模型技术演进全景

原创 Maurice

A 推荐进阶 | 约 5 分钟阅读更新于 2026-02-27

AI 导读

大语言模型技术演进全景作者：Maurice | 灵阙学院演进脉络大语言模型（LLM）的发展可以划分为四个阶段：阶段一：基础架构期（2017-2020）里程碑：Transformer → GPT → BERT → GPT-2 → T5 这一阶段确立了 LLM 的核心架构。2017 年 Google 发表的 "Attention Is All You Need" 论文提出了...

大语言模型技术演进全景

作者：Maurice | 灵阙学院

演进脉络

大语言模型（LLM）的发展可以划分为四个阶段：

阶段一：基础架构期（2017-2020）

里程碑：Transformer → GPT → BERT → GPT-2 → T5

这一阶段确立了 LLM 的核心架构。2017 年 Google 发表的 "Attention Is All You Need" 论文提出了 Transformer 架构，用自注意力机制（Self-Attention）替代了循环神经网络（RNN），实现了真正的并行计算。

两条技术路线在这一阶段形成：

Decoder-Only（GPT 系列）：自回归生成，擅长文本生成
Encoder-Only（BERT 系列）：双向理解，擅长分类/检索

阶段二：规模效应期（2020-2023）

里程碑：GPT-3 → PaLM → ChatGPT → GPT-4 → Claude 2

"Scaling Laws" 成为这一阶段的核心驱动力——模型参数量、训练数据量和计算量的增加带来近乎可预测的能力提升。

关键发现：

涌现能力（Emergent Abilities）：超过一定规模后出现的新能力
上下文学习（In-Context Learning）：无需微调，通过示例学习
思维链（Chain-of-Thought）：引导模型逐步推理

阶段三：对齐与产品化期（2023-2025）

里程碑：RLHF → Constitutional AI → Claude 3 → GPT-4o → Gemini → DeepSeek

这一阶段的核心主题是"让 LLM 有用且安全"：

RLHF（人类反馈强化学习）：让模型输出符合人类偏好
Constitutional AI：Anthropic 提出的基于原则的对齐方法
多模态：文本、图像、音频、视频的统一处理
长上下文：从 4K → 32K → 128K → 2M token
推理能力：o1/o3、Claude Extended Thinking、Gemini Deep Think

阶段四：Agent 与系统化期（2025-）

里程碑：Claude 4 系列 → Agent SDK → MCP 标准化 → DeepSeek R1

LLM 从"单次问答"走向"自主执行多步骤任务"：

模型原生支持工具调用（Tool Use / Function Calling）
Agent 框架标准化（LangGraph、CrewAI、ADK）
协议标准化（MCP）
推理模型（Reasoning Models）成为主流

关键技术演进

注意力机制的进化

技术	出现时间	核心改进	复杂度
Multi-Head Attention	2017	多头并行注意力	O(n^2)
Sparse Attention	2019	稀疏注意力模式	O(n * sqrt(n))
Flash Attention	2022	IO-aware 精确注意力	O(n^2) 但常数小
Flash Attention 2	2023	更好的并行性	同上
Ring Attention	2023	跨设备长序列	O(n^2/devices)
MLA (Multi-Latent)	2024	低秩注意力投影	O(n * d_latent)

位置编码的演进

绝对位置编码（原始 Transformer）：固定位置向量
相对位置编码（T5/ALiBi）：编码相对距离
RoPE（旋转位置编码）：通过旋转矩阵编码位置，支持长度外推
YaRN / NTK-Aware：进一步扩展 RoPE 到超长上下文

训练方法的演进

预训练（Pre-training）

自回归语言建模：预测下一个 token
掩码语言建模：预测被遮挡的 token
数据配比优化：代码、数学、多语言的配比策略

后训练（Post-training）

SFT（监督微调）：用指令数据微调
RLHF（强化学习+人类反馈）：通过奖励模型优化
DPO（直接偏好优化）：无需奖励模型的简化版 RLHF
Constitutional AI：基于原则的自我批评与修正
GRPO（Group Relative Policy Optimization）：DeepSeek R1 使用的方法

推理优化

推理加速

技术	原理	加速比
KV-Cache	缓存已计算的 Key/Value	基础（必备）
Speculative Decoding	小模型预测 + 大模型验证	2-3x
PagedAttention	虚拟内存管理 KV-Cache	内存节省 2-4x
Continuous Batching	动态批处理请求	吞吐 2-5x
Quantization (GPTQ/AWQ)	权重量化 (4bit/8bit)	推理 2-4x
Mixture of Experts	稀疏激活部分参数	计算节省 4-8x

推理能力增强

**思维链（Chain-of-Thought）**系列：

Standard Prompting:
Q: 解决问题 → A: 直接答案（常出错）

Chain-of-Thought:
Q: 解决问题 → A: 步骤1...步骤2...步骤3...最终答案

Tree-of-Thought:
Q: 解决问题 → 分支1（评估）→ 分支2（评估）→ 选最优 → 答案

Self-Consistency:
Q: 解决问题 → 多次 CoT → 投票选最一致的答案

推理模型（Reasoning Models）：

OpenAI o1/o3：内部思维链 + 强化学习训练
Claude Extended Thinking：显式思考过程
DeepSeek R1：纯 RL 训练出的推理能力
Gemini Deep Think：多步推理 + 搜索验证

开源 vs 闭源格局

闭源模型

模型	厂商	特点
GPT-4o/o3	OpenAI	多模态、强推理
Claude 4 系列	Anthropic	长上下文、安全对齐
Gemini 2.x	Google	超长上下文、多模态

开源模型

模型	厂商	参数量	特点
Llama 3.1/3.2	Meta	8B-405B	最大开源基座
DeepSeek R1	幻方量化	671B(MoE)	推理能力媲美 o1
Qwen 2.5	阿里	0.5B-72B	中文能力强
Mistral Large	Mistral	123B	欧洲代表
Yi-Lightning	零一万物	-	中国多模态

格局判断

闭源领先：在最顶级能力（如 AGI benchmark、复杂推理）上，闭源仍领先
开源追赶：DeepSeek R1 证明了开源模型可以在推理任务上接近闭源水平
场景分化：通用能力看闭源，垂直场景微调看开源
成本驱动：对延迟和成本敏感的场景，开源 + 量化部署更经济

中国 LLM 生态

第一梯队

DeepSeek：推理能力突出（R1），MoE 架构创新
Qwen（阿里）：全系列覆盖（0.5B-72B），开源生态完善
GLM（智谱）：多模态能力强，中文理解优秀

第二梯队

Yi（零一万物）：多模态、长上下文
Baichuan：中文优化、商业化落地
MiniMax：语音 + 视频多模态

关键差异化

与美国模型相比，中国 LLM 的差异化体现在：

中文理解：在中文法律、财税、政务等专业场景表现更好
成本效率：DeepSeek 以远低于 OpenAI 的训练成本达到相近效果
部署灵活：国产模型更容易在国内合规环境中部署
行业适配：针对中国行业特色（如 A 股、中国税法）有专门优化

趋势展望

短期（2026）

推理模型标配化：所有主流模型都将具备显式推理能力
多模态统一：文本/图像/音频/视频的统一处理成为默认
Agent 原生化：模型层面原生支持工具调用和多步规划

中期（2027-2028）

模型架构分化：MoE + Attention 变体成为主流
端云协同：小模型端侧 + 大模型云端的混合推理
世界模型：从语言模型走向理解物理世界规律的模型

需要关注的风险

训练数据枯竭：高质量文本数据的增量正在放缓
能源约束：大模型训练的能耗引发环境和成本担忧
监管不确定性：各国对 AI 的监管政策尚在形成中
安全对齐：模型能力增长 vs 安全控制的平衡

Maurice | maurice_wen@proton.me