v4.0.0 - 50+ CONCEPTS EXPANDED

AI & Agent 全栈概念速查表

全部 (50) 1. LLM 基础 (10) 2. 微调与对齐 (10) 3. Agent 架构 (10) 4. 工具与协议 (10) 5. 推理与工作流 (10)
1. LLM Core

SOTA (最先进水平)

在特定任务中取得当前业界最高分数的模型。
例如:当前闭源综合 SOTA 是 GPT-4o 和 Claude 3.5 Sonnet;开源 SOTA 包括 Llama 3.1 405B 和 Qwen 2.5 72B。

MilestoneLeaderboard
1. LLM Core

Benchmarks (评测基准)

评估模型能力的标准化考试。
例如:MMLU (测综合知识)、HumanEval (测代码)、GSM8K (测数学)、LMSYS Chatbot Arena (盲测人类偏好 Elo 排名,目前最权威)。

MMLUArena Elo
1. LLM Core

Hallucination (幻觉)

模型生成看似连贯但实际上是虚构、错误的信息。因为 LLM 本质是“概率接龙”机器。
例如:问模型“林黛玉倒拔垂杨柳的故事”,它可能会一本正经地瞎编。通常用 RAG 或 Grounding 解决。

Fact-checkingGrounding
1. LLM Core

Context Window (上下文窗口)

模型一次能处理的最大文本长度(以 Token 计)。
例如:早期 GPT-3 只有 4K;现在 GPT-4o 支持 128K;Gemini 1.5 Pro 更是达到了恐怖的 200万 Token,可直接塞入整本《红楼梦》或超大代码库。

TokenLong-Context
1. LLM Core

MoE (混合专家架构)

将大模型拆分成多个“专家”网络,每次推理只激活部分专家,从而在不增加计算负担的情况下扩大模型参数。
例如:Mixtral 8x7B、DeepSeek-V2、以及传闻中的 GPT-4 均采用了 MoE 架构。

ArchitectureEfficiency
1. LLM Core

Tokenization (分词)

将人类文本转换为模型能理解的数字序列(Token)的过程。
例如:OpenAI 使用的 tiktoken 库,基于 BPE 算法。通常 1 个 Token 约等于 0.75 个英文单词,或 0.5 个汉字。

BPEVocabulary
1. LLM Core

Scaling Laws (缩放定律)

OpenAI 提出的经验定律:随着计算量、数据量和模型参数的增加,模型性能会可预测地提升,并在突破某个阈值时产生“涌现能力”(Emergent Abilities,如突然学会做数学题)。

ComputeEmergence
1. LLM Core

KV Cache (键值缓存)

在生成文本时,缓存之前计算过的注意力矩阵(Key 和 Value),避免重复计算,极大提升推理速度。
例如:vLLM 框架提出的 PagedAttention 技术,通过像操作系统管理内存一样管理 KV Cache,提升了数倍吞吐量。

InferencevLLM
1. LLM Core

Open vs Closed Source

开源模型允许本地部署和微调,闭源模型只能通过 API 调用。
开源代表:Meta Llama 3、阿里 Qwen、法国 Mistral。
闭源代表:OpenAI GPT-4、Anthropic Claude 3、Google Gemini。

LlamaQwen
1. LLM Core

Attention Mechanism

Transformer 架构的核心(自注意力机制)。它允许模型在处理当前词时,动态关注上下文中其他相关的词。
例如:在“苹果公司发布了新手机”中,“苹果”会分配更多注意力给“公司”和“手机”,而不是水果。

TransformerSelf-Attention
2. Tuning

RLHF (基于人类反馈强化学习)

让模型输出符合人类价值观的技术。先让人类给模型的回答打分,训练出一个“奖励模型(RM)”,再用 PPO 算法根据 RM 的打分来强化训练原模型。
例如:ChatGPT 惊艳问世的核心技术就是引入了 RLHF。

AlignmentPPO
2. Tuning

DPO (直接偏好优化)

目前替代 RLHF 的 SOTA 对齐方案。它跳过了复杂的奖励模型训练,直接用“好回答 vs 坏回答”的对比数据,通过数学等价转换直接优化语言模型。
例如:Llama 3 和 Qwen 2 的对齐阶段大量使用了 DPO 及其变体。

DPOPreference
2. Tuning

SFT (监督微调)

预训练模型只懂续写,不懂对话。SFT 使用高质量的“指令-回复”问答对,让模型学会遵循人类的指令格式。
例如:给模型喂入 10万条客服对话数据,将其 SFT 微调成一个专业的客服机器人。

InstructionDataset
2. Tuning

LoRA & PEFT

PEFT 指参数高效微调。LoRA 是最著名的 PEFT 技术,它冻结原模型权重,只训练旁路的低秩矩阵(极少量参数)。
例如:使用 QLoRA 技术,单张 RTX 4090 显卡就能微调 7B 级别的大模型。

LoRACost-effective
2. Tuning

RAG (检索增强生成)

不修改模型权重,而是外挂知识库解决幻觉。流程:用户提问 -> 向量库检索相关文档 -> 拼接到 Prompt 中 -> LLM 生成答案。
例如:企业内部文档问答系统(如 Dify、FastGPT 构建的应用)几乎全基于 RAG。

Vector DBEmbeddings
2. Tuning

Prompt Engineering

通过设计输入文本来引导模型输出。包括 Zero-shot(零样本直接问)、Few-shot(给几个例子再问)等技巧。
例如:在 Prompt 中加入 "Let's think step by step" 曾是提升模型逻辑能力的经典咒语。

Zero-shotFew-shot
2. Tuning

System Prompt (系统提示词)

在对话开始前设定模型全局行为、角色(Persona)和规则的隐藏指令。
例如:Anthropic 为 Claude 设定的 System Prompt 包含大量安全规则和核心价值观,决定了 Claude 的性格。

PersonaRules
2. Tuning

Alignment Tax (对齐税)

为了让模型变得安全、礼貌(对齐),往往会导致其在某些核心能力(如创造力、代码能力)上出现轻微下降,这种代价被称为“对齐税”。

SafetyTrade-off
2. Tuning

Reward Model (奖励模型)

在 RLHF 流程中,专门训练用来模仿人类偏好打分的辅助模型。它输入一段对话,输出一个标量分数(分数越高代表人类越喜欢)。

ScoringRLHF
2. Tuning

CPT (持续预训练)

在基础模型之上,使用特定领域的大量无标注文本(如全套医学教材、公司私有代码库)继续进行无监督预训练,使其成为领域专家。

Domain-SpecificPre-training
3. Agent Arch

State Machine (状态机架构)

将 Agent 工作流建模为有向图(Graph),节点是操作,边是条件路由。通过全局 State 传递数据,支持循环和中断恢复。
例如:LangGraph 是目前最火的状态机 Agent 框架,完美替代了脆弱的线性 Chain。

LangGraphDAG
3. Agent Arch

Swarm / Multi-Agent

多个拥有不同人设和工具的 Agent 协作完成复杂任务。通过 Handoff(交接)机制转移控制权。
例如:OpenAI Swarm (轻量级网络)、CrewAI (基于角色的团队协作框架)。

Multi-AgentHandoff
3. Agent Arch

Actor-Critic Architecture

借鉴强化学习的经典架构。一个 Agent 负责生成方案和执行(Actor),另一个 Agent 负责审查、挑错和打分(Critic),形成对抗与优化闭环。

EvaluationSelf-Correction
3. Agent Arch

Hierarchical Agents

层级化架构。顶层是一个 Manager Agent 负责拆解任务并分发,底层是多个 Worker Agents 负责具体执行(如写代码、查资料),最后由 Manager 汇总。

Manager-WorkerDelegation
3. Agent Arch

Memory Module (记忆模块)

Agent 的存储系统。分为短期记忆(当前对话上下文,受限于 Token 窗口)和长期记忆(通常存入向量数据库或图数据库,实现跨会话的持久化记忆)。

Short-termLong-term
3. Agent Arch

Planning Module (规划模块)

Agent 面对复杂目标时,将其拆解为多个可执行子任务(Task Decomposition)的能力。通常结合 CoT 或树状搜索算法实现。

DecompositionStrategy
3. Agent Arch

Decentralized Agents

去中心化架构,没有绝对的 Manager,Agent 之间通过群聊(Group Chat)广播消息,自主决定谁来发言和接管任务。
例如:微软开源的 AutoGen 框架是此架构的典型代表。

AutoGenP2P
3. Agent Arch

Standardized Env (标准环境)

为评估 Agent 设立的真实交互环境。
例如:SWE-bench (给 Agent 一个 GitHub 仓库和 Bug 描述,看它能否提 PR 修复);WebArena (给 Agent 一个虚拟浏览器,看它能否完成订票等网页操作)。

SWE-benchWebArena
3. Agent Arch

Human-in-the-loop (HITL)

“人类在环”机制。在 Agent 执行高风险操作(如发邮件、删数据库、付款)前,暂停工作流,等待人类审批或提供额外输入后再继续。

ApprovalSafety
3. Agent Arch

Persona Module (人设模块)

定义 Agent 的身份、专业领域、语气和权限。在多智能体系统中,清晰的 Persona 能防止 Agent 越权或产生回答同质化。

IdentityRoleplay
4. Agent Tools

MCP (模型上下文协议)

Anthropic 提出的开源标准协议。采用 C/S 架构,标准化了 AI 模型与外部数据源(本地文件、数据库、企业API)的连接方式,实现工具解耦。
例如:通过 MCP Server,Claude Desktop 可以直接读取你本地的 Git 仓库。

AnthropicIntegration
4. Agent Tools

Function Calling (函数调用)

模型输出符合 JSON Schema 规范的结构化数据,以触发外部代码执行的能力。它是 Agent 拥有"手和脚"的基础。

JSONAPI
4. Agent Tools

Computer Use (计算机控制)

允许 Agent 像人类一样直接查看屏幕截图、移动鼠标、点击按钮和输入文本。
例如:Claude 3.5 Sonnet 引入的 Computer Use API,标志着 Agent 从 API 调用向通用 GUI 自动化(OS-level Agent)跨越。

GUIOS Agent
4. Agent Tools

Code Interpreter (代码解释器)

给 Agent 提供一个安全的沙盒环境(通常是 Python Jupyter 环境),让它可以编写代码、执行代码、生成图表并处理文件,用编程的方式解决数学或数据分析问题。

PythonSandbox
4. Agent Tools

Parallel Tool Calling

模型在一次推理中,同时决定调用多个独立的工具。
例如:问“北京、上海、广州今天的天气”,模型会一次性并行发出 3 个查天气的 API 请求,而不是串行查 3 次,极大提升效率。

ParallelismEfficiency
4. Agent Tools

Web Browsing Tools

赋予 Agent 访问互联网的能力。通常包含两部分:Search(调用 Bing/Google API 搜索关键词)和 Scraper(抓取特定 URL 的网页正文并转为 Markdown 供模型阅读)。

SearchScraping
4. Agent Tools

Dynamic Tool Discovery

当系统拥有成百上千个工具时,不能把所有工具的描述都塞进 Prompt(会超 Token)。Agent 需要先调用“工具检索器”,动态查找并加载当前任务需要的工具。

RoutingScalability
4. Agent Tools

RAG as a Tool

将 RAG(检索增强)封装成一个普通的 Function Tool。Agent 可以自主决定何时调用检索工具、用什么关键词搜索,而不是每次对话都强制进行无脑检索。

AutonomousRetrieval
4. Agent Tools

API Integration

将企业现有的 RESTful API 或 GraphQL 转换为模型可理解的工具描述(如通过 OpenAPI Spec 自动转换),让 Agent 直接操作系统(如发飞书消息、建 Jira 任务)。

OpenAPIEnterprise
4. Agent Tools

Sandboxing (安全沙盒)

由于 Agent 具有执行代码和调用命令的能力,必须将其运行环境(如 Docker 容器、E2B 沙盒)与宿主机隔离,防止恶意指令(如 `rm -rf /`)破坏系统。

SecurityDocker
5. Reasoning

Agentic Workflow (工作流)

吴恩达提出的范式:通过反思、工具使用、规划和多智能体协作的迭代式流程,让较弱的模型(如 GPT-3.5)也能达到甚至超越强模型(GPT-4)的零样本表现。

WorkflowAndrew Ng
5. Reasoning

ReAct (推理与行动)

最经典的 Agent 推理框架。交替进行:思考 (Thought) -> 行动 (Action/调用工具) -> 观察 (Observation/查看工具返回结果),直到得出最终答案。

ReActLoop
5. Reasoning

CoT (思维链)

Chain of Thought。引导模型在给出最终答案前,先输出分步推理的中间过程。这能显著降低复杂数学和逻辑推理任务的错误率。

LogicStep-by-step
5. Reasoning

ToT (思维树)

CoT 的进阶版。将推理过程建模为一棵树,每个节点是一个中间状态。Agent 可以探索多个分支,评估当前分支的前景,如果走不通则回溯(Backtracking)。

SearchBacktracking
5. Reasoning

DSPy (大模型编程框架)

斯坦福提出的革命性框架。抛弃手动写 Prompt,用代码定义信息流,然后通过编译器和评估指标,自动优化出最佳的 Prompt 甚至微调模型权重。

CompilerAuto-Prompt
5. Reasoning

Self-Reflection (自我反思)

Agent 在生成结果或遇到错误(如代码运行报错)后,将错误信息作为上下文重新输入给自己,分析失败原因并生成修正方案(Self-Correction)的能力。

CritiqueCorrection
5. Reasoning

Plan-and-Solve

一种推理策略:强制模型在开始执行任何动作之前,先输出一个完整的编号计划(Plan),然后再严格按照计划一步步执行(Solve),避免陷入局部死胡同。

PlanningExecution
5. Reasoning

GoT (思维图)

ToT 的进一步泛化。推理路径不再局限于树状结构,而是可以形成图(Graph)。允许不同的推理分支相互合并(交叉验证)或形成循环。

GraphSynergy
5. Reasoning

LATS (语言智能体树搜索)

结合了蒙特卡洛树搜索(MCTS)、大模型推理和外部反馈的高级算法。通过不断模拟、评估和反向传播,寻找最优的决策路径,常用于极其复杂的规划任务。

MCTSAdvanced
5. Reasoning

Step-back Prompting

一种高级提示技巧。遇到复杂问题时,先让模型“退一步”,抽象出该问题背后的核心物理或逻辑原理,然后再基于这些原理去解决具体问题。

AbstractionPrompting