平台架构

技术架构、模型路由、部署运维与数据治理 -- 共 48 篇

难度筛选

平台架构

AI Agent 的记忆系统架构

AI Agent 的记忆系统架构概述人类的记忆系统由短期记忆、长期记忆和情景记忆协同工作。AI Agent 要实现真正的智能，也需要一套类似的记忆架构。没有记忆的 Agent 每次对话都从零开始，无法积累经验、无法个性化、无法处理跨会话的复杂任务。本文从认知科学的记忆模型出发，设计一套完整的 Agent 记忆系统，覆盖短期记忆、长期记忆、情景记忆的存储、检索和压缩策略。记忆类型体系...

S 进阶约 8 分钟

AI 可观测性：监控、追踪与告警

AI 可观测性：监控、追踪与告警 LLM 可观测性平台（Langfuse/Phoenix）、Token 用量追踪、延迟监控、质量评估指标与告警体系引言传统软件的可观测性关注三大支柱：日志（Logs）、指标（Metrics）和追踪（Traces）。LLM 应用在此基础上增加了独特的挑战：输出不确定性（同一输入可能产生不同输出）、质量难以量化（"好"的回答没有明确标准）、成本与 Token...

S 进阶约 8 分钟

AI 应用的 CI/CD 流水线设计

AI 应用的 CI/CD 流水线设计引言传统软件的 CI/CD 关注代码编译、测试和部署。AI 应用在此基础上引入了模型这一核心工件：模型有自己的版本、训练数据依赖、性能指标，以及与代码不同的发布节奏。本文系统性地介绍如何设计一条覆盖"代码 + 模型 + 数据"三位一体的 AI CI/CD 流水线，涵盖模型版本管理、评测门禁、A/B 测试、金丝雀发布等关键环节。 AI CI/CD 与传统...

S 提升约 9 分钟

AI 应用的安全架构：从 Prompt 注入防御到数据保护

AI 应用的安全架构：从 Prompt 注入防御到数据保护概述 AI 应用面临一类全新的安全威胁。传统 Web 安全关注的是 SQL 注入、XSS、CSRF 等已知攻击面。而 LLM 应用引入了一个全新的攻击面：自然语言本身成为攻击向量。本文系统性地覆盖 AI 应用安全的六大领域：Prompt 注入、越狱防御、数据泄露、输出过滤、供应链安全和运行时防护。威胁模型总览 AI 应用安全威胁图谱...

S 进阶约 8 分钟

AI 推理优化：从模型压缩到推测解码

AI 推理优化：从模型压缩到推测解码量化技术（GPTQ/AWQ/GGUF）、推测解码、KV-Cache 优化与 vLLM/TGI 生产部署全解析引言大语言模型的推理成本是制约其大规模部署的核心瓶颈。一个 70B 参数的模型在 FP16 下需要约 140GB 显存，远超单卡容量。即使能装下，自回归解码的逐 token 生成方式导致 GPU 利用率极低——推理过程是 memory-bound...

S 进阶约 9 分钟

AI 系统容错设计：降级、熔断与回退

AI 系统容错设计：降级、熔断与回退 LLM 熔断器模式、优雅降级策略、Fallback 模型链、重试机制与生产容错架构引言 LLM 应用面临的可靠性挑战远超传统 API 服务。Provider API 偶发超时、模型输出质量波动、Token 配额耗尽、内容过滤误杀——任何一个环节失败都会导致用户请求失败。更糟糕的是，LLM 调用通常是同步阻塞的，一个 30 秒的超时会锁死一个用户连接。...

S 进阶约 8 分钟

AI 缓存策略：Semantic Cache 与 Prompt Cache

AI 缓存策略：Semantic Cache 与 Prompt Cache 语义缓存（Embedding 相似度匹配）、精确缓存、Prompt Caching（Anthropic/OpenAI）与缓存失效策略引言 LLM 推理成本高、延迟大，而实际业务中大量请求是重复或高度相似的。据统计，典型的客服聊天机器人中 30-50%...

S 进阶约 10 分钟

AI 网关设计：模型路由与负载均衡

AI 网关设计：模型路由与负载均衡 LLM API 网关架构模式、智能路由策略、Fallback 链设计、成本追踪与 Token 计量引言当一个组织同时使用多个 LLM 提供商（OpenAI、Anthropic、Google、开源模型）时，直接在业务代码中硬编码 API 调用会导致紧耦合、切换困难和成本失控。AI...

S 进阶约 7 分钟

Feature Store 设计与实现

Feature Store 设计与实现在线/离线特征服务架构、Feast 实战、特征工程模式、Point-in-Time Correctness 与生产最佳实践引言机器学习系统中，特征工程占据了 60-80% 的开发时间。但更棘手的问题是：训练时用 Spark 从数据湖计算的特征，与在线推理时用 Redis...

S 提升约 9 分钟

Function Calling 与 Tool Use 架构设计

Function Calling 与 Tool Use 架构设计核心概念 Function Calling（工具调用）是让大语言模型（LLM）与外部世界交互的关键机制。模型本身不执行函数，而是生成结构化的函数调用请求，由应用层执行后将结果返回给模型。这个看似简单的机制彻底改变了 AI 应用的架构：LLM 从一个"文本生成器"变成了一个"决策引擎"，能够规划、调用工具、处理结果、迭代执行。...

S 进阶约 7 分钟

Kubernetes 上的 AI 推理服务部署概述将 AI 推理服务部署到 Kubernetes 集群面临几个独特挑战：GPU 资源调度、大模型镜像管理、推理延迟优化、自动扩缩容策略。本文从工程实践角度，系统介绍在 K8s 上部署 AI 推理服务的完整方案。 GPU 资源管理 NVIDIA Device Plugin 安装 # 安装 NVIDIA GPU Operator（推荐，一站式管理）...

S 提升约 8 分钟

MCP 协议深度解析与 Server 开发实战

MCP 协议深度解析与 Server 开发实战 Model Context Protocol 架构原理、TypeScript Server 实现、工具/资源/提示模式与安全设计引言 Model Context Protocol（MCP）是 Anthropic 于 2024 年底发布的开放协议，旨在为大语言模型提供标准化的上下文接入方式。它解决了一个根本问题：LLM...

S 进阶约 8 分钟

MLOps 流水线：从实验到生产

MLOps 流水线：从实验到生产 MLflow 实验管理、Feature Store 集成、模型注册与版本控制、ML CI/CD 流水线、生产监控与数据漂移检测引言传统软件的 DevOps 已经高度成熟，但机器学习系统引入了额外的复杂性：代码、数据和模型三个维度同时在变化。一个模型从实验笔记本到生产服务，中间存在巨大的鸿沟——Google 将其称为"隐藏的技术债务"。MLOps...

S 提升约 7 分钟

Serverless AI 架构实践

Serverless AI 架构实践 Lambda/Cloud Functions 运行 AI 推理、冷启动优化、GPU Serverless（Modal/Replicate）与成本模型分析引言 Serverless 计算的核心承诺是"按需付费、零运维"。对于 AI 应用来说，这意味着不需要为 GPU 实例 7x24 待命——只在有推理请求时才消耗计算资源。然而，AI...

S 提升约 8 分钟

Streaming 架构：SSE、WebSocket、gRPC 在 AI 应用中的选型

Streaming 架构：SSE、WebSocket、gRPC 在 AI 应用中的选型为什么 AI 应用需要 Streaming 大语言模型的推理过程是逐 token 生成的。一次完整回复可能需要 5-30 秒。如果等待全部生成完毕再返回，用户体验极差。Streaming 技术让用户在第一个 token 生成后就开始看到内容，将感知延迟从数十秒降低到数百毫秒。除了文本生成，AI...

S 进阶约 8 分钟

向量数据库选型与工程实践

向量数据库选型与工程实践 Qdrant vs Milvus vs Weaviate vs pgvector 全维度对比、索引算法原理、混合搜索与生产部署指南引言向量数据库是 RAG（检索增强生成）系统的核心基础设施。它解决的根本问题是：给定一个查询向量，如何从数十亿向量中快速找到最相似的 K 个结果。暴力搜索的时间复杂度是...

S 提升约 6 分钟

向量数据库选型：Milvus、Qdrant、Weaviate、Chroma 深度对比

向量数据库选型：Milvus、Qdrant、Weaviate、Chroma 深度对比为什么需要向量数据库传统数据库基于精确匹配（SQL WHERE）或全文检索（倒排索引）。但在 AI 应用中，我们需要的是语义检索：找到"意思相近"的内容，而非"字面相同"的内容。向量数据库的核心能力是 ANN（Approximate Nearest...

S 提升约 9 分钟

多租户 AI 平台架构设计

多租户 AI 平台架构设计概述多租户 AI 平台需要在共享基础设施上为多个客户（租户）提供独立的 AI 服务。核心挑战在于：如何在保证租户隔离的同时，最大化 GPU 等昂贵资源的利用率。本文覆盖多租户 AI 平台的五个核心设计维度：租户隔离、资源调度、成本分摊、推理优化和安全合规。架构总览多租户 AI 平台架构...

S 提升约 7 分钟

大模型微调实战：LoRA、QLoRA与全参数微调深度对比

大模型微调实战：LoRA、QLoRA与全参数微调深度对比概述大模型微调（Fine-tuning）是将通用预训练模型适配到特定领域任务的核心技术。随着模型参数量从数十亿到数千亿的爆发式增长，全参数微调的计算成本已经超出大多数团队的承受范围。参数高效微调（PEFT）技术应运而生，其中 LoRA 和 QLoRA 成为当前最主流的两种方案。...

S 提升约 8 分钟

实时 AI 系统架构：流式推理与 SSE

实时 AI 系统架构：流式推理与 SSE Server-Sent Events 流式 Token 传输、WebSocket vs SSE 选型、背压处理与生产级流式架构引言大语言模型的自回归生成特性天然适合流式输出：模型逐个 token 生成，为什么要等全部生成完才返回给用户？流式传输可以将用户感知的首次响应延迟从数秒降低到数百毫秒，极大改善交互体验。ChatGPT...

S 进阶约 7 分钟

边缘 AI 部署：从云端到端侧的模型优化

边缘 AI 部署：从云端到端侧的模型优化概述边缘 AI（Edge AI）将 AI 推理从云端移到设备端（手机、IoT 设备、浏览器、嵌入式系统），核心目标是降低延迟、保护隐私、减少带宽依赖。关键挑战：端侧设备算力和内存有限，必须对模型进行大幅压缩和优化。本文系统覆盖模型量化、知识蒸馏、结构优化和推理引擎四个维度。模型压缩技术全景模型压缩技术栈 | ├── 量化...

S 进阶约 7 分钟

边缘 AI 部署：从云端到终端

边缘 AI 部署：从云端到终端 ONNX Runtime、TensorRT、Core ML、WebGPU 运行时对比，模型优化压缩技术与端侧推理实战引言云端 AI 推理面临三大制约：网络延迟（用户体验）、带宽成本（数据传输）和隐私合规（数据出境）。边缘 AI 将推理计算推到离用户最近的位置——手机、浏览器、IoT 设备甚至芯片内部——从根本上消除了这些制约。本文覆盖边缘 AI...

S 提升约 7 分钟

AI 应用可观测性架构

AI 应用可观测性架构 LLM 应用的日志、指标、追踪与成本管控全栈实践 Maurice | 灵阙学院一、为什么 AI 应用需要专属可观测性传统后端服务的可观测性关注请求延迟、错误率、资源利用率。但 LLM 应用有三个独特挑战：非确定性输出：相同输入可能产生不同输出，需要质量评估而非简单的 pass/fail 成本敏感：每次调用消耗 Token，且不同模型价格差异巨大（GPT-4o 与...

S 进阶约 9 分钟

API 网关与模型路由实战

API 网关与模型路由实战构建生产级 LLM API 网关：多模型路由、语义缓存、限流、降级与成本监控 Maurice | 灵阙学院前置准备 Python 3.10+ Redis（用于缓存和限流）至少一个 LLM API Key（OpenAI / Anthropic / Google）一、为什么需要 LLM API 网关直接调用 LLM API 的痛点：应用层直连的问题： -...

S 进阶约 13 分钟

LLM 推理引擎横评：vLLM vs SGLang vs TensorRT-LLM

LLM 推理引擎横评：vLLM vs SGLang vs TensorRT-LLM 作者：Maurice | 灵阙学院导读如果你正在为自家产品部署开源大模型，这篇文章能帮你少踩至少半年的坑。推理引擎这个赛道看似底层，但它直接决定你的 GPU 成本、API 延迟和用户体验——对 AI 产品经理和技术负责人而言，选错引擎等于把钱烧进黑洞。本文基于 2025-2026 年...

S 提升约 6 分钟

LLM 推理服务部署架构

LLM 推理服务部署架构从推理引擎选型到生产级 GPU 集群的全链路实践 Maurice | 灵阙学院一、推理引擎三巨头 LLM 推理服务的核心在于如何在有限的 GPU 资源上最大化吞吐量。三个主流推理引擎各有侧重。 ┌─────────────────────────────────────────────────────────────┐ │ 推理引擎技术栈 │...

S 进阶约 23 分钟

MCP协议工程实践：AI工具集成的USB-C

MCP协议工程实践：AI工具集成的USB-C 作者：Maurice | 灵阙学院目录诞生背景：为什么需要统一的工具协议核心架构：三层模型与通信机制三大原语：Resources、Tools、Prompts Python实现：用FastMCP快速构建服务端 TypeScript实现：官方SDK建服务端生产级最佳实践主流MCP Server生态全景 Claude...

S 进阶约 16 分钟

Prompt Caching 与 AI 应用成本优化实战

Prompt Caching 与 AI 应用成本优化实战作者：Maurice | 灵阙学院背景：Token 是新的 CPU Cycle AI 应用上线后，工程师面临的第一个生产问题往往不是性能，而是账单。一家做 AI 客服的 SaaS 公司，初期月调用量 200 万次，每次调用带入 3000 token 的系统提示词，使用 Claude Sonnet，月账单轻松突破...

S 提升约 6 分钟

RAG 系统架构设计模式

RAG 系统架构设计模式从 Naive RAG 到 Modular RAG 的演进路径与生产级实践 Maurice | 灵阙学院一、RAG 三代演进 RAG (Retrieval-Augmented Generation) 并非一成不变的技术方案，而是一个持续演进的架构范式。理解其演进脉络，才能在实际项目中做出正确的架构选择。...

S 提升约 9 分钟

分布式 Agent 系统架构

分布式 Agent 系统架构多 Agent 通信、编排、容错与生产部署的工程化实践 Maurice | 灵阙学院一、为什么需要多 Agent 架构单个 Agent 在面对复杂任务时存在三个天然瓶颈：上下文窗口有限、单一角色视角片面、串行执行效率低。多 Agent 系统通过分工协作来突破这些限制。...

S 进阶约 7 分钟

微服务与 AI 网关设计

微服务与 AI 网关设计统一模型入口：路由、缓存、限流、容灾的架构实践 Maurice | 灵阙学院一、为什么需要 AI 网关当应用对接多个 LLM Provider 时，每个调用点直接集成 SDK 会导致以下问题： Key 散落：API Key 分散在各服务中，轮转和审计困难无统一限流：单个服务超额调用导致全局 Key 被封无容灾：Provider 宕机时需要手动切换，业务中断...

S 进阶约 15 分钟

企业数据管理落地手册（MDM/元数据/血缘/质量/安全）

打印 / 导出 PDF 企业数据管理落地手册（可执行版）覆盖：主数据管理（MDM）/ 元数据管理 / 数据血缘 / 数据质量 / 安全与隐私 / 生命周期 / 数据产品化交付 / 变更与运维用法：把本页当作“治理作战手册”，逐条对照完成交付物、流程与监控。建议先跑通 1 条 P0 链路再规模化。目录 1. 目标与范围（P0优先） 2. 组织与RACI（必须先定） 3....

S 进阶约 6 分钟

MODEL_ROUTING_ARCHITECTURE_CURRENT.md - 现行模型路由（真实代码）

MODEL_ROUTING_ARCHITECTURE_CURRENT.md - 现行模型路由（真实代码）版本: v1.1 | 状态: 真实盘点 | 更新时间: 2026-01-10 说明: 本文档基于当前代码真实路由输出，用于与旧版 MODEL_ROUTING_ARCHITECTURE.md 对比；以代码为准。 1. 架构概览当前项目存在两套运行时路由链： Backend...

S 进阶约 3 分钟

MODEL_ROUTING_ARCHITECTURE_DIFF.md - 路由计划 vs 现实对照

MODEL_ROUTING_ARCHITECTURE_DIFF.md - 路由计划 vs 现实对照版本: v1.1 | 状态: 对照清单 | 更新时间: 2026-01-10 说明: 对照旧版 MODEL_ROUTING_ARCHITECTURE.md 与当前真实代码链路，突出关键差异与影响。 1. 结论摘要现行系统仍是双栈路由（Backend 与 Web 分离），但基础规则已抽至共享内核...

S 进阶约 2 分钟

系统性修复方案

JSON 解析错误的系统性修复方案 1. 错误分析遇到的错误信息： Expected ',' or ']' after array element in JSON at position 1209 根据这个错误，问题通常出现在 JSON 格式的数组元素之间缺少逗号或者数组结束符号 "]"。需要找到错误的 JSON 片段并进行修复。 2. 排查步骤方法 A：在 Chrome 中设置“异常断点”...

S 提升约 15 分钟

灵阙智能体平台 - 模型路由架构文档

灵阙智能体平台 - 模型路由架构文档版本: v1.1 | 更新日期: 2026-01-04 v1.1 更新: 删除5个免费 Google API 账号，仅保留 Ai-studio-jason（付费账号，2026-3-26到期），Gemini fallback 到 Poe API nano-banana-pro v1.0 更新:...

S 进阶约 5 分钟

多模态模型编排：优化后的配置表（2025-12-31）

多模态模型编排：优化后的配置表版本：2025-12-31（优化版） · 目标：更像“真 SOTA”的路由 + 默认/降级链路全局路由规则图片（有文字）图片（无文字）智能体/工具调用视频生成文本处理音频/TTS 音乐加分项 ✅ 重点优化：Seedream 前移 · 智能体 fallback 升档 · 视频按口型/音频分流 ⚙️ 建议配套：质量闸门（OCR/一致性/口型） +...

S 提升约 5 分钟

SOTA Agent Platform: Universal Data Protocol

SOTA PROTOCOL Core 1. 全局系统宪法 (Kernel) 2. 后端解析器 (Python) Agents 3. 视频智能体 (Video) 4. 图片智能体 (Image) 5. PPT 智能体 (Slide) Global Meta-Protocol 这是平台的“底层宪法”。必须将其注入到所有智能体 System Prompt 的最顶端。它强制 LLM...

S 入门约 7 分钟

后端API集成指南

后端API集成指南概述本文档说明如何使用已实现的后端API端点，这些端点为MCP和Skill系统提供真实的执行能力。已集成的LLM提供商 1. Anthropic Claude ✅ 模型：claude-3-5-sonnet-20241022, claude-3-opus, claude-3-haiku 用途：高质量推理、代码生成、长文本处理 API Key: 已配置 2. OpenAI...

S 入门约 3 分钟

手写文字 OCR 识别使用指南

手写文字 OCR 识别使用指南功能概述手写文字 OCR 识别功能允许用户上传图片，快速识别其中的手写文字内容。支持多种识别模式和语言选择。访问路径前端页面：/workspace/ocr API 端点：/api/ocr/handwriting 功能特性 1. 图片上传支持拖拽上传或点击选择文件支持格式：JPG、PNG、JPEG 最大文件大小：10MB 实时图片预览 2. 识别模式...

S 进阶约 6 分钟

AI智能配置助手 - Aha Moment功能

AI智能配置助手 - Aha Moment功能功能概述 AI智能配置助手是Agent生成页面的革命性功能，将传统的"填表模式"转变为"审核模式"。用户只需输入任务描述，AI自动完成所有配置选择，30秒完成传统5分钟的工作。核心理念从"填表"到"审核" 传统方式: 用户需要理解8个配置选项，手动选择框架、模型、Skills、知识库等 AI智能配置:...

S 进阶约 10 分钟

极致B端体验 - 全面优化方案

极致B端体验 - 全面优化方案概述从极致交互、极致性能、极致B端体验三个维度，对Agent生成页面进行深度优化，达到世界级SaaS产品标准。一、极致交互优化 🎯 1.1 键盘快捷键系统 ⌨️ 实现文件: /hooks/useKeyboardShortcuts.ts 功能: ⌘+S: 保存配置草稿 ⌘+Enter: 生成Agent ⌘+K: 触发AI智能推荐 ⌥+Tab:...

S 进阶约 9 分钟

极致B端体验 - 优化实施状态报告

极致B端体验 - 优化实施状态报告生成时间: 2025-01-12 项目: 灵阙智能体平台 - Agent生成器 📊 实施进度总览 P0 优化（已完成） ✅ 优化项状态实现文件用户价值 AI思考可视化 ✅ 完成 ThinkingProcess.tsx 提升AI透明度，30秒展示完整推理过程紧凑配置面板 ✅ 完成 CompactConfigPanel.tsx...

S 入门约 14 分钟

灵阙智能体平台 - 插件系统实施指南

灵阙智能体平台 - 插件系统实施指南项目概览目标: 建立统一的扩展框架，全面集成MCP工具、插件系统和Skill系统周期: 7-8周（约2个月）架构: 完整生产级架构，考虑版本兼容、错误处理、性能优化已完成工作（Phase 1.1 部分） 1. 核心类型定义 ✅ 文件: /lib/plugin-system/types.ts (700+行) 内容: 插件元数据和版本管理...

S 进阶约 14 分钟

工作流验证系统实施报告

工作流验证系统实施报告项目概述项目名称: 工作流完整性验证与自动修复系统实施时间: 2025-01-07 状态: ✅ 已完成（6个阶段全部完成）项目目标确保所有工作流模板的流程完整性（闭合打通）实现实时验证引擎，检测工作流错误提供智能自动修复功能增强服务端API验证排查并解决相关错误 Phase 1: 核心验证引擎 ✅ 创建文件...

S 入门约 27 分钟

MCP 在大数据领域的专业开发指南

MCP 在大数据领域的专业开发指南 Model Context Protocol：构建 AI 代理与大数据系统的标准化桥梁技术白皮书 | 企业级实践指南目录导航一、引言：MCP 的必要性与核心价值二、对比分析：MCP 与传统 API 三、MCP 解决的大数据特定挑战四、MCP 架构深度解析五、实战开发：构建大数据 MCP 服务器六、云数据仓库连接案例研究...

S 入门约 8 分钟

Terminal、TTY、Shell、SSH 完全指南

Terminal • TTY • Shell • SSH 一次性搞懂命令行世界的四大核心概念对照表架构图概念详解工作流程命令速查 VPS管理故障排查最佳实践一句话对照表 Terminal（终端/终端模拟器）你眼前这个"黑框窗口"应用（如 macOS 的 Terminal/iTerm2、Windows Terminal、GNOME...

S 提升约 5 分钟

云服务模型深度对比分析：从IaaS到MaaS的演进

云服务模型深度对比分析：从IaaS到MaaS的演进 AI时代的服务模式革命云计算服务模型经历了从基础设施抽象到智能模型抽象的深刻演进。MaaS（Model as a Service）作为AI时代的原生服务模式，标志着我们从"计算资源服务化"迈向"智能能力服务化"的新纪元。这不仅是技术架构的演进，更是商业模式和生产方式的根本性变革。 2006-2010 IaaS 基础设施即服务...