AI & Agent 全栈概念速查表 4.0 (50+ 核心概念)
AI 导读
v4.0.0 - 50+ CONCEPTS EXPANDED AI & Agent 全栈概念速查表 全部 (50) 1. LLM 基础 (10) 2. 微调与对齐 (10) 3. Agent 架构 (10) 4. 工具与协议 (10) 5. 推理与工作流 (10) 1. LLM Core SOTA (最先进水平) 在特定任务中取得当前业界最高分数的模型。例如:当前闭源综合 SOTA 是...
AI & Agent 全栈概念速查表
SOTA (最先进水平)
在特定任务中取得当前业界最高分数的模型。
例如:当前闭源综合 SOTA 是 GPT-4o 和 Claude 3.5 Sonnet;开源 SOTA 包括 Llama 3.1 405B 和 Qwen 2.5 72B。
Benchmarks (评测基准)
评估模型能力的标准化考试。
例如:MMLU (测综合知识)、HumanEval (测代码)、GSM8K (测数学)、LMSYS Chatbot Arena (盲测人类偏好 Elo 排名,目前最权威)。
Hallucination (幻觉)
模型生成看似连贯但实际上是虚构、错误的信息。因为 LLM 本质是“概率接龙”机器。
例如:问模型“林黛玉倒拔垂杨柳的故事”,它可能会一本正经地瞎编。通常用 RAG 或 Grounding 解决。
Context Window (上下文窗口)
模型一次能处理的最大文本长度(以 Token 计)。
例如:早期 GPT-3 只有 4K;现在 GPT-4o 支持 128K;Gemini 1.5 Pro 更是达到了恐怖的 200万 Token,可直接塞入整本《红楼梦》或超大代码库。
MoE (混合专家架构)
将大模型拆分成多个“专家”网络,每次推理只激活部分专家,从而在不增加计算负担的情况下扩大模型参数。
例如:Mixtral 8x7B、DeepSeek-V2、以及传闻中的 GPT-4 均采用了 MoE 架构。
Tokenization (分词)
将人类文本转换为模型能理解的数字序列(Token)的过程。
例如:OpenAI 使用的 tiktoken 库,基于 BPE 算法。通常 1 个 Token 约等于 0.75 个英文单词,或 0.5 个汉字。
Scaling Laws (缩放定律)
OpenAI 提出的经验定律:随着计算量、数据量和模型参数的增加,模型性能会可预测地提升,并在突破某个阈值时产生“涌现能力”(Emergent Abilities,如突然学会做数学题)。
KV Cache (键值缓存)
在生成文本时,缓存之前计算过的注意力矩阵(Key 和 Value),避免重复计算,极大提升推理速度。
例如:vLLM 框架提出的 PagedAttention 技术,通过像操作系统管理内存一样管理 KV Cache,提升了数倍吞吐量。
Open vs Closed Source
开源模型允许本地部署和微调,闭源模型只能通过 API 调用。
开源代表:Meta Llama 3、阿里 Qwen、法国 Mistral。
闭源代表:OpenAI GPT-4、Anthropic Claude 3、Google Gemini。
Attention Mechanism
Transformer 架构的核心(自注意力机制)。它允许模型在处理当前词时,动态关注上下文中其他相关的词。
例如:在“苹果公司发布了新手机”中,“苹果”会分配更多注意力给“公司”和“手机”,而不是水果。
RLHF (基于人类反馈强化学习)
让模型输出符合人类价值观的技术。先让人类给模型的回答打分,训练出一个“奖励模型(RM)”,再用 PPO 算法根据 RM 的打分来强化训练原模型。
例如:ChatGPT 惊艳问世的核心技术就是引入了 RLHF。
DPO (直接偏好优化)
目前替代 RLHF 的 SOTA 对齐方案。它跳过了复杂的奖励模型训练,直接用“好回答 vs 坏回答”的对比数据,通过数学等价转换直接优化语言模型。
例如:Llama 3 和 Qwen 2 的对齐阶段大量使用了 DPO 及其变体。
SFT (监督微调)
预训练模型只懂续写,不懂对话。SFT 使用高质量的“指令-回复”问答对,让模型学会遵循人类的指令格式。
例如:给模型喂入 10万条客服对话数据,将其 SFT 微调成一个专业的客服机器人。
LoRA & PEFT
PEFT 指参数高效微调。LoRA 是最著名的 PEFT 技术,它冻结原模型权重,只训练旁路的低秩矩阵(极少量参数)。
例如:使用 QLoRA 技术,单张 RTX 4090 显卡就能微调 7B 级别的大模型。
RAG (检索增强生成)
不修改模型权重,而是外挂知识库解决幻觉。流程:用户提问 -> 向量库检索相关文档 -> 拼接到 Prompt 中 -> LLM 生成答案。
例如:企业内部文档问答系统(如 Dify、FastGPT 构建的应用)几乎全基于 RAG。
Prompt Engineering
通过设计输入文本来引导模型输出。包括 Zero-shot(零样本直接问)、Few-shot(给几个例子再问)等技巧。
例如:在 Prompt 中加入 "Let's think step by step" 曾是提升模型逻辑能力的经典咒语。
System Prompt (系统提示词)
在对话开始前设定模型全局行为、角色(Persona)和规则的隐藏指令。
例如:Anthropic 为 Claude 设定的 System Prompt 包含大量安全规则和核心价值观,决定了 Claude 的性格。
Alignment Tax (对齐税)
为了让模型变得安全、礼貌(对齐),往往会导致其在某些核心能力(如创造力、代码能力)上出现轻微下降,这种代价被称为“对齐税”。
Reward Model (奖励模型)
在 RLHF 流程中,专门训练用来模仿人类偏好打分的辅助模型。它输入一段对话,输出一个标量分数(分数越高代表人类越喜欢)。
CPT (持续预训练)
在基础模型之上,使用特定领域的大量无标注文本(如全套医学教材、公司私有代码库)继续进行无监督预训练,使其成为领域专家。
State Machine (状态机架构)
将 Agent 工作流建模为有向图(Graph),节点是操作,边是条件路由。通过全局 State 传递数据,支持循环和中断恢复。
例如:LangGraph 是目前最火的状态机 Agent 框架,完美替代了脆弱的线性 Chain。
Swarm / Multi-Agent
多个拥有不同人设和工具的 Agent 协作完成复杂任务。通过 Handoff(交接)机制转移控制权。
例如:OpenAI Swarm (轻量级网络)、CrewAI (基于角色的团队协作框架)。
Actor-Critic Architecture
借鉴强化学习的经典架构。一个 Agent 负责生成方案和执行(Actor),另一个 Agent 负责审查、挑错和打分(Critic),形成对抗与优化闭环。
Hierarchical Agents
层级化架构。顶层是一个 Manager Agent 负责拆解任务并分发,底层是多个 Worker Agents 负责具体执行(如写代码、查资料),最后由 Manager 汇总。
Memory Module (记忆模块)
Agent 的存储系统。分为短期记忆(当前对话上下文,受限于 Token 窗口)和长期记忆(通常存入向量数据库或图数据库,实现跨会话的持久化记忆)。
Planning Module (规划模块)
Agent 面对复杂目标时,将其拆解为多个可执行子任务(Task Decomposition)的能力。通常结合 CoT 或树状搜索算法实现。
Decentralized Agents
去中心化架构,没有绝对的 Manager,Agent 之间通过群聊(Group Chat)广播消息,自主决定谁来发言和接管任务。
例如:微软开源的 AutoGen 框架是此架构的典型代表。
Standardized Env (标准环境)
为评估 Agent 设立的真实交互环境。
例如:SWE-bench (给 Agent 一个 GitHub 仓库和 Bug 描述,看它能否提 PR 修复);WebArena (给 Agent 一个虚拟浏览器,看它能否完成订票等网页操作)。
Human-in-the-loop (HITL)
“人类在环”机制。在 Agent 执行高风险操作(如发邮件、删数据库、付款)前,暂停工作流,等待人类审批或提供额外输入后再继续。
Persona Module (人设模块)
定义 Agent 的身份、专业领域、语气和权限。在多智能体系统中,清晰的 Persona 能防止 Agent 越权或产生回答同质化。
MCP (模型上下文协议)
Anthropic 提出的开源标准协议。采用 C/S 架构,标准化了 AI 模型与外部数据源(本地文件、数据库、企业API)的连接方式,实现工具解耦。
例如:通过 MCP Server,Claude Desktop 可以直接读取你本地的 Git 仓库。
Function Calling (函数调用)
模型输出符合 JSON Schema 规范的结构化数据,以触发外部代码执行的能力。它是 Agent 拥有"手和脚"的基础。
Computer Use (计算机控制)
允许 Agent 像人类一样直接查看屏幕截图、移动鼠标、点击按钮和输入文本。
例如:Claude 3.5 Sonnet 引入的 Computer Use API,标志着 Agent 从 API 调用向通用 GUI 自动化(OS-level Agent)跨越。
Code Interpreter (代码解释器)
给 Agent 提供一个安全的沙盒环境(通常是 Python Jupyter 环境),让它可以编写代码、执行代码、生成图表并处理文件,用编程的方式解决数学或数据分析问题。
Parallel Tool Calling
模型在一次推理中,同时决定调用多个独立的工具。
例如:问“北京、上海、广州今天的天气”,模型会一次性并行发出 3 个查天气的 API 请求,而不是串行查 3 次,极大提升效率。
Web Browsing Tools
赋予 Agent 访问互联网的能力。通常包含两部分:Search(调用 Bing/Google API 搜索关键词)和 Scraper(抓取特定 URL 的网页正文并转为 Markdown 供模型阅读)。
Dynamic Tool Discovery
当系统拥有成百上千个工具时,不能把所有工具的描述都塞进 Prompt(会超 Token)。Agent 需要先调用“工具检索器”,动态查找并加载当前任务需要的工具。
RAG as a Tool
将 RAG(检索增强)封装成一个普通的 Function Tool。Agent 可以自主决定何时调用检索工具、用什么关键词搜索,而不是每次对话都强制进行无脑检索。
API Integration
将企业现有的 RESTful API 或 GraphQL 转换为模型可理解的工具描述(如通过 OpenAPI Spec 自动转换),让 Agent 直接操作系统(如发飞书消息、建 Jira 任务)。
Sandboxing (安全沙盒)
由于 Agent 具有执行代码和调用命令的能力,必须将其运行环境(如 Docker 容器、E2B 沙盒)与宿主机隔离,防止恶意指令(如 `rm -rf /`)破坏系统。
Agentic Workflow (工作流)
吴恩达提出的范式:通过反思、工具使用、规划和多智能体协作的迭代式流程,让较弱的模型(如 GPT-3.5)也能达到甚至超越强模型(GPT-4)的零样本表现。
ReAct (推理与行动)
最经典的 Agent 推理框架。交替进行:思考 (Thought) -> 行动 (Action/调用工具) -> 观察 (Observation/查看工具返回结果),直到得出最终答案。
CoT (思维链)
Chain of Thought。引导模型在给出最终答案前,先输出分步推理的中间过程。这能显著降低复杂数学和逻辑推理任务的错误率。
ToT (思维树)
CoT 的进阶版。将推理过程建模为一棵树,每个节点是一个中间状态。Agent 可以探索多个分支,评估当前分支的前景,如果走不通则回溯(Backtracking)。
DSPy (大模型编程框架)
斯坦福提出的革命性框架。抛弃手动写 Prompt,用代码定义信息流,然后通过编译器和评估指标,自动优化出最佳的 Prompt 甚至微调模型权重。
Self-Reflection (自我反思)
Agent 在生成结果或遇到错误(如代码运行报错)后,将错误信息作为上下文重新输入给自己,分析失败原因并生成修正方案(Self-Correction)的能力。
Plan-and-Solve
一种推理策略:强制模型在开始执行任何动作之前,先输出一个完整的编号计划(Plan),然后再严格按照计划一步步执行(Solve),避免陷入局部死胡同。
GoT (思维图)
ToT 的进一步泛化。推理路径不再局限于树状结构,而是可以形成图(Graph)。允许不同的推理分支相互合并(交叉验证)或形成循环。
LATS (语言智能体树搜索)
结合了蒙特卡洛树搜索(MCTS)、大模型推理和外部反馈的高级算法。通过不断模拟、评估和反向传播,寻找最优的决策路径,常用于极其复杂的规划任务。
Step-back Prompting
一种高级提示技巧。遇到复杂问题时,先让模型“退一步”,抽象出该问题背后的核心物理或逻辑原理,然后再基于这些原理去解决具体问题。