平台架构
技术架构、模型路由、部署运维与数据治理 -- 共 48 篇
平台架构
AI Agent 的记忆系统架构
AI Agent 的记忆系统架构 概述 人类的记忆系统由短期记忆、长期记忆和情景记忆协同工作。AI Agent 要实现真正的智能,也需要一套类似的记忆架构。没有记忆的 Agent 每次对话都从零开始,无法积累经验、无法个性化、无法处理跨会话的复杂任务。 本文从认知科学的记忆模型出发,设计一套完整的 Agent 记忆系统,覆盖短期记忆、长期记忆、情景记忆的存储、检索和压缩策略。 记忆类型体系...
AI 可观测性:监控、追踪与告警
AI 可观测性:监控、追踪与告警 LLM 可观测性平台(Langfuse/Phoenix)、Token 用量追踪、延迟监控、质量评估指标与告警体系 引言 传统软件的可观测性关注三大支柱:日志(Logs)、指标(Metrics)和追踪(Traces)。LLM 应用在此基础上增加了独特的挑战:输出不确定性(同一输入可能产生不同输出)、质量难以量化("好"的回答没有明确标准)、成本与 Token...
AI 应用的 CI/CD 流水线设计
AI 应用的 CI/CD 流水线设计 引言 传统软件的 CI/CD 关注代码编译、测试和部署。AI 应用在此基础上引入了模型这一核心工件:模型有自己的版本、训练数据依赖、性能指标,以及与代码不同的发布节奏。 本文系统性地介绍如何设计一条覆盖"代码 + 模型 + 数据"三位一体的 AI CI/CD 流水线,涵盖模型版本管理、评测门禁、A/B 测试、金丝雀发布等关键环节。 AI CI/CD 与传统...
AI 应用的安全架构:从 Prompt 注入防御到数据保护
AI 应用的安全架构:从 Prompt 注入防御到数据保护 概述 AI 应用面临一类全新的安全威胁。传统 Web 安全关注的是 SQL 注入、XSS、CSRF 等已知攻击面。而 LLM 应用引入了一个全新的攻击面:自然语言本身成为攻击向量。 本文系统性地覆盖 AI 应用安全的六大领域:Prompt 注入、越狱防御、数据泄露、输出过滤、供应链安全和运行时防护。 威胁模型总览 AI 应用安全威胁图谱...
AI 推理优化:从模型压缩到推测解码
AI 推理优化:从模型压缩到推测解码 量化技术(GPTQ/AWQ/GGUF)、推测解码、KV-Cache 优化与 vLLM/TGI 生产部署全解析 引言 大语言模型的推理成本是制约其大规模部署的核心瓶颈。一个 70B 参数的模型在 FP16 下需要约 140GB 显存,远超单卡容量。即使能装下,自回归解码的逐 token 生成方式导致 GPU 利用率极低——推理过程是 memory-bound...
AI 系统容错设计:降级、熔断与回退
AI 系统容错设计:降级、熔断与回退 LLM 熔断器模式、优雅降级策略、Fallback 模型链、重试机制与生产容错架构 引言 LLM 应用面临的可靠性挑战远超传统 API 服务。Provider API 偶发超时、模型输出质量波动、Token 配额耗尽、内容过滤误杀——任何一个环节失败都会导致用户请求失败。更糟糕的是,LLM 调用通常是同步阻塞的,一个 30 秒的超时会锁死一个用户连接。...
AI 缓存策略:Semantic Cache 与 Prompt Cache
AI 缓存策略:Semantic Cache 与 Prompt Cache 语义缓存(Embedding 相似度匹配)、精确缓存、Prompt Caching(Anthropic/OpenAI)与缓存失效策略 引言 LLM 推理成本高、延迟大,而实际业务中大量请求是重复或高度相似的。据统计,典型的客服聊天机器人中 30-50%...
AI 网关设计:模型路由与负载均衡
AI 网关设计:模型路由与负载均衡 LLM API 网关架构模式、智能路由策略、Fallback 链设计、成本追踪与 Token 计量 引言 当一个组织同时使用多个 LLM 提供商(OpenAI、Anthropic、Google、开源模型)时,直接在业务代码中硬编码 API 调用会导致紧耦合、切换困难和成本失控。AI...
Feature Store 设计与实现
Feature Store 设计与实现 在线/离线特征服务架构、Feast 实战、特征工程模式、Point-in-Time Correctness 与生产最佳实践 引言 机器学习系统中,特征工程占据了 60-80% 的开发时间。但更棘手的问题是:训练时用 Spark 从数据湖计算的特征,与在线推理时用 Redis...
Function Calling 与 Tool Use 架构设计
Function Calling 与 Tool Use 架构设计 核心概念 Function Calling(工具调用)是让大语言模型(LLM)与外部世界交互的关键机制。模型本身不执行函数,而是生成结构化的函数调用请求,由应用层执行后将结果返回给模型。 这个看似简单的机制彻底改变了 AI 应用的架构:LLM 从一个"文本生成器"变成了一个"决策引擎",能够规划、调用工具、处理结果、迭代执行。...
Kubernetes 上的 AI 推理服务部署
Kubernetes 上的 AI 推理服务部署 概述 将 AI 推理服务部署到 Kubernetes 集群面临几个独特挑战:GPU 资源调度、大模型镜像管理、推理延迟优化、自动扩缩容策略。本文从工程实践角度,系统介绍在 K8s 上部署 AI 推理服务的完整方案。 GPU 资源管理 NVIDIA Device Plugin 安装 # 安装 NVIDIA GPU Operator(推荐,一站式管理)...
MCP 协议深度解析与 Server 开发实战
MCP 协议深度解析与 Server 开发实战 Model Context Protocol 架构原理、TypeScript Server 实现、工具/资源/提示模式与安全设计 引言 Model Context Protocol(MCP)是 Anthropic 于 2024 年底发布的开放协议,旨在为大语言模型提供标准化的上下文接入方式。它解决了一个根本问题:LLM...
MLOps 流水线:从实验到生产
MLOps 流水线:从实验到生产 MLflow 实验管理、Feature Store 集成、模型注册与版本控制、ML CI/CD 流水线、生产监控与数据漂移检测 引言 传统软件的 DevOps 已经高度成熟,但机器学习系统引入了额外的复杂性:代码、数据和模型三个维度同时在变化。一个模型从实验笔记本到生产服务,中间存在巨大的鸿沟——Google 将其称为"隐藏的技术债务"。MLOps...
Serverless AI 架构实践
Serverless AI 架构实践 Lambda/Cloud Functions 运行 AI 推理、冷启动优化、GPU Serverless(Modal/Replicate)与成本模型分析 引言 Serverless 计算的核心承诺是"按需付费、零运维"。对于 AI 应用来说,这意味着不需要为 GPU 实例 7x24 待命——只在有推理请求时才消耗计算资源。然而,AI...
Streaming 架构:SSE、WebSocket、gRPC 在 AI 应用中的选型
Streaming 架构:SSE、WebSocket、gRPC 在 AI 应用中的选型 为什么 AI 应用需要 Streaming 大语言模型的推理过程是逐 token 生成的。一次完整回复可能需要 5-30 秒。如果等待全部生成完毕再返回,用户体验极差。Streaming 技术让用户在第一个 token 生成后就开始看到内容,将感知延迟从数十秒降低到数百毫秒。 除了文本生成,AI...
向量数据库选型与工程实践
向量数据库选型与工程实践 Qdrant vs Milvus vs Weaviate vs pgvector 全维度对比、索引算法原理、混合搜索与生产部署指南 引言 向量数据库是 RAG(检索增强生成)系统的核心基础设施。它解决的根本问题是:给定一个查询向量,如何从数十亿向量中快速找到最相似的 K 个结果。暴力搜索的时间复杂度是...
向量数据库选型:Milvus、Qdrant、Weaviate、Chroma 深度对比
向量数据库选型:Milvus、Qdrant、Weaviate、Chroma 深度对比 为什么需要向量数据库 传统数据库基于精确匹配(SQL WHERE)或全文检索(倒排索引)。但在 AI 应用中,我们需要的是语义检索:找到"意思相近"的内容,而非"字面相同"的内容。 向量数据库的核心能力是 ANN(Approximate Nearest...
多租户 AI 平台架构设计
多租户 AI 平台架构设计 概述 多租户 AI 平台需要在共享基础设施上为多个客户(租户)提供独立的 AI 服务。核心挑战在于:如何在保证租户隔离的同时,最大化 GPU 等昂贵资源的利用率。 本文覆盖多租户 AI 平台的五个核心设计维度:租户隔离、资源调度、成本分摊、推理优化和安全合规。 架构总览 多租户 AI 平台架构...
大模型微调实战:LoRA、QLoRA与全参数微调深度对比
大模型微调实战:LoRA、QLoRA与全参数微调深度对比 概述 大模型微调(Fine-tuning)是将通用预训练模型适配到特定领域任务的核心技术。随着模型参数量从数十亿到数千亿的爆发式增长,全参数微调的计算成本已经超出大多数团队的承受范围。参数高效微调(PEFT)技术应运而生,其中 LoRA 和 QLoRA 成为当前最主流的两种方案。...
实时 AI 系统架构:流式推理与 SSE
实时 AI 系统架构:流式推理与 SSE Server-Sent Events 流式 Token 传输、WebSocket vs SSE 选型、背压处理与生产级流式架构 引言 大语言模型的自回归生成特性天然适合流式输出:模型逐个 token 生成,为什么要等全部生成完才返回给用户?流式传输可以将用户感知的首次响应延迟从数秒降低到数百毫秒,极大改善交互体验。ChatGPT...
边缘 AI 部署:从云端到端侧的模型优化
边缘 AI 部署:从云端到端侧的模型优化 概述 边缘 AI(Edge AI)将 AI 推理从云端移到设备端(手机、IoT 设备、浏览器、嵌入式系统),核心目标是降低延迟、保护隐私、减少带宽依赖。 关键挑战:端侧设备算力和内存有限,必须对模型进行大幅压缩和优化。本文系统覆盖模型量化、知识蒸馏、结构优化和推理引擎四个维度。 模型压缩技术全景 模型压缩技术栈 | ├── 量化...
边缘 AI 部署:从云端到终端
边缘 AI 部署:从云端到终端 ONNX Runtime、TensorRT、Core ML、WebGPU 运行时对比,模型优化压缩技术与端侧推理实战 引言 云端 AI 推理面临三大制约:网络延迟(用户体验)、带宽成本(数据传输)和隐私合规(数据出境)。边缘 AI 将推理计算推到离用户最近的位置——手机、浏览器、IoT 设备甚至芯片内部——从根本上消除了这些制约。 本文覆盖边缘 AI...
AI 应用可观测性架构
AI 应用可观测性架构 LLM 应用的日志、指标、追踪与成本管控全栈实践 Maurice | 灵阙学院 一、为什么 AI 应用需要专属可观测性 传统后端服务的可观测性关注请求延迟、错误率、资源利用率。但 LLM 应用有三个独特挑战: 非确定性输出:相同输入可能产生不同输出,需要质量评估而非简单的 pass/fail 成本敏感:每次调用消耗 Token,且不同模型价格差异巨大(GPT-4o 与...
API 网关与模型路由实战
API 网关与模型路由实战 构建生产级 LLM API 网关:多模型路由、语义缓存、限流、降级与成本监控 Maurice | 灵阙学院 前置准备 Python 3.10+ Redis(用于缓存和限流) 至少一个 LLM API Key(OpenAI / Anthropic / Google) 一、为什么需要 LLM API 网关 直接调用 LLM API 的痛点: 应用层直连的问题: -...
LLM 推理引擎横评:vLLM vs SGLang vs TensorRT-LLM
LLM 推理引擎横评:vLLM vs SGLang vs TensorRT-LLM 作者:Maurice | 灵阙学院 导读 如果你正在为自家产品部署开源大模型,这篇文章能帮你少踩至少半年的坑。推理引擎这个赛道看似底层,但它直接决定你的 GPU 成本、API 延迟和用户体验——对 AI 产品经理和技术负责人而言,选错引擎等于把钱烧进黑洞。 本文基于 2025-2026 年...
LLM 推理服务部署架构
LLM 推理服务部署架构 从推理引擎选型到生产级 GPU 集群的全链路实践 Maurice | 灵阙学院 一、推理引擎三巨头 LLM 推理服务的核心在于如何在有限的 GPU 资源上最大化吞吐量。三个主流推理引擎各有侧重。 ┌─────────────────────────────────────────────────────────────┐ │ 推理引擎技术栈 │...
MCP协议工程实践:AI工具集成的USB-C
MCP协议工程实践:AI工具集成的USB-C 作者:Maurice | 灵阙学院 目录 诞生背景:为什么需要统一的工具协议 核心架构:三层模型与通信机制 三大原语:Resources、Tools、Prompts Python实现:用FastMCP快速构建服务端 TypeScript实现:官方SDK建服务端 生产级最佳实践 主流MCP Server生态全景 Claude...
Prompt Caching 与 AI 应用成本优化实战
Prompt Caching 与 AI 应用成本优化实战 作者:Maurice | 灵阙学院 背景:Token 是新的 CPU Cycle AI 应用上线后,工程师面临的第一个生产问题往往不是性能,而是账单。 一家做 AI 客服的 SaaS 公司,初期月调用量 200 万次,每次调用带入 3000 token 的系统提示词,使用 Claude Sonnet,月账单轻松突破...
RAG 系统架构设计模式
RAG 系统架构设计模式 从 Naive RAG 到 Modular RAG 的演进路径与生产级实践 Maurice | 灵阙学院 一、RAG 三代演进 RAG (Retrieval-Augmented Generation) 并非一成不变的技术方案,而是一个持续演进的架构范式。理解其演进脉络,才能在实际项目中做出正确的架构选择。...
分布式 Agent 系统架构
分布式 Agent 系统架构 多 Agent 通信、编排、容错与生产部署的工程化实践 Maurice | 灵阙学院 一、为什么需要多 Agent 架构 单个 Agent 在面对复杂任务时存在三个天然瓶颈:上下文窗口有限、单一角色视角片面、串行执行效率低。多 Agent 系统通过分工协作来突破这些限制。...
微服务与 AI 网关设计
微服务与 AI 网关设计 统一模型入口:路由、缓存、限流、容灾的架构实践 Maurice | 灵阙学院 一、为什么需要 AI 网关 当应用对接多个 LLM Provider 时,每个调用点直接集成 SDK 会导致以下问题: Key 散落:API Key 分散在各服务中,轮转和审计困难 无统一限流:单个服务超额调用导致全局 Key 被封 无容灾:Provider 宕机时需要手动切换,业务中断...
企业数据管理落地手册(MDM/元数据/血缘/质量/安全)
打印 / 导出 PDF 企业数据管理落地手册(可执行版) 覆盖:主数据管理(MDM)/ 元数据管理 / 数据血缘 / 数据质量 / 安全与隐私 / 生命周期 / 数据产品化交付 / 变更与运维 用法:把本页当作“治理作战手册”,逐条对照完成交付物、流程与监控。建议先跑通 1 条 P0 链路再规模化。 目录 1. 目标与范围(P0优先) 2. 组织与RACI(必须先定) 3....
MODEL_ROUTING_ARCHITECTURE_CURRENT.md - 现行模型路由(真实代码)
MODEL_ROUTING_ARCHITECTURE_CURRENT.md - 现行模型路由(真实代码) 版本: v1.1 | 状态: 真实盘点 | 更新时间: 2026-01-10 说明: 本文档基于当前代码真实路由输出,用于与旧版 MODEL_ROUTING_ARCHITECTURE.md 对比;以代码为准。 1. 架构概览 当前项目存在两套运行时路由链: Backend...
MODEL_ROUTING_ARCHITECTURE_DIFF.md - 路由计划 vs 现实对照
MODEL_ROUTING_ARCHITECTURE_DIFF.md - 路由计划 vs 现实对照 版本: v1.1 | 状态: 对照清单 | 更新时间: 2026-01-10 说明: 对照旧版 MODEL_ROUTING_ARCHITECTURE.md 与当前真实代码链路,突出关键差异与影响。 1. 结论摘要 现行系统仍是 双栈路由(Backend 与 Web 分离),但基础规则已抽至共享内核...
系统性修复方案
JSON 解析错误的系统性修复方案 1. 错误分析 遇到的错误信息: Expected ',' or ']' after array element in JSON at position 1209 根据这个错误,问题通常出现在 JSON 格式的数组元素之间缺少逗号或者数组结束符号 "]"。需要找到错误的 JSON 片段并进行修复。 2. 排查步骤 方法 A:在 Chrome 中设置“异常断点”...
灵阙智能体平台 - 模型路由架构文档
灵阙智能体平台 - 模型路由架构文档 版本: v1.1 | 更新日期: 2026-01-04 v1.1 更新: 删除5个免费 Google API 账号,仅保留 Ai-studio-jason(付费账号,2026-3-26到期),Gemini fallback 到 Poe API nano-banana-pro v1.0 更新:...
多模态模型编排:优化后的配置表(2025-12-31)
多模态模型编排:优化后的配置表 版本:2025-12-31(优化版) · 目标:更像“真 SOTA”的路由 + 默认/降级链路 全局路由规则 图片(有文字) 图片(无文字) 智能体/工具调用 视频生成 文本处理 音频/TTS 音乐 加分项 ✅ 重点优化:Seedream 前移 · 智能体 fallback 升档 · 视频按口型/音频分流 ⚙️ 建议配套:质量闸门(OCR/一致性/口型) +...
SOTA Agent Platform: Universal Data Protocol
SOTA PROTOCOL Core 1. 全局系统宪法 (Kernel) 2. 后端解析器 (Python) Agents 3. 视频智能体 (Video) 4. 图片智能体 (Image) 5. PPT 智能体 (Slide) Global Meta-Protocol 这是平台的“底层宪法”。必须将其注入到所有智能体 System Prompt 的最顶端。 它强制 LLM...
后端API集成指南
后端API集成指南 概述 本文档说明如何使用已实现的后端API端点,这些端点为MCP和Skill系统提供真实的执行能力。 已集成的LLM提供商 1. Anthropic Claude ✅ 模型:claude-3-5-sonnet-20241022, claude-3-opus, claude-3-haiku 用途:高质量推理、代码生成、长文本处理 API Key: 已配置 2. OpenAI...
手写文字 OCR 识别使用指南
手写文字 OCR 识别使用指南 功能概述 手写文字 OCR 识别功能允许用户上传图片,快速识别其中的手写文字内容。支持多种识别模式和语言选择。 访问路径 前端页面:/workspace/ocr API 端点:/api/ocr/handwriting 功能特性 1. 图片上传 支持拖拽上传或点击选择文件 支持格式:JPG、PNG、JPEG 最大文件大小:10MB 实时图片预览 2. 识别模式...
AI智能配置助手 - Aha Moment功能
AI智能配置助手 - Aha Moment功能 功能概述 AI智能配置助手是Agent生成页面的革命性功能,将传统的"填表模式"转变为"审核模式"。用户只需输入任务描述,AI自动完成所有配置选择,30秒完成传统5分钟的工作。 核心理念 从"填表"到"审核" 传统方式: 用户需要理解8个配置选项,手动选择框架、模型、Skills、知识库等 AI智能配置:...
极致B端体验 - 全面优化方案
极致B端体验 - 全面优化方案 概述 从极致交互、极致性能、极致B端体验三个维度,对Agent生成页面进行深度优化,达到世界级SaaS产品标准。 一、极致交互优化 🎯 1.1 键盘快捷键系统 ⌨️ 实现文件: /hooks/useKeyboardShortcuts.ts 功能: ⌘+S: 保存配置草稿 ⌘+Enter: 生成Agent ⌘+K: 触发AI智能推荐 ⌥+Tab:...
极致B端体验 - 优化实施状态报告
极致B端体验 - 优化实施状态报告 生成时间: 2025-01-12 项目: 灵阙智能体平台 - Agent生成器 📊 实施进度总览 P0 优化(已完成) ✅ 优化项 状态 实现文件 用户价值 AI思考可视化 ✅ 完成 ThinkingProcess.tsx 提升AI透明度,30秒展示完整推理过程 紧凑配置面板 ✅ 完成 CompactConfigPanel.tsx...
灵阙智能体平台 - 插件系统实施指南
灵阙智能体平台 - 插件系统实施指南 项目概览 目标: 建立统一的扩展框架,全面集成MCP工具、插件系统和Skill系统 周期: 7-8周(约2个月) 架构: 完整生产级架构,考虑版本兼容、错误处理、性能优化 已完成工作(Phase 1.1 部分) 1. 核心类型定义 ✅ 文件: /lib/plugin-system/types.ts (700+行) 内容: 插件元数据和版本管理...
工作流验证系统实施报告
工作流验证系统实施报告 项目概述 项目名称: 工作流完整性验证与自动修复系统 实施时间: 2025-01-07 状态: ✅ 已完成(6个阶段全部完成) 项目目标 确保所有工作流模板的流程完整性(闭合打通) 实现实时验证引擎,检测工作流错误 提供智能自动修复功能 增强服务端API验证 排查并解决相关错误 Phase 1: 核心验证引擎 ✅ 创建文件...
MCP 在大数据领域的专业开发指南
MCP 在大数据领域的专业开发指南 Model Context Protocol:构建 AI 代理与大数据系统的标准化桥梁 技术白皮书 | 企业级实践指南 目录导航 一、引言:MCP 的必要性与核心价值 二、对比分析:MCP 与传统 API 三、MCP 解决的大数据特定挑战 四、MCP 架构深度解析 五、实战开发:构建大数据 MCP 服务器 六、云数据仓库连接案例研究...
Terminal、TTY、Shell、SSH 完全指南
Terminal • TTY • Shell • SSH 一次性搞懂命令行世界的四大核心概念 对照表 架构图 概念详解 工作流程 命令速查 VPS管理 故障排查 最佳实践 一句话对照表 Terminal(终端/终端模拟器) 你眼前这个"黑框窗口"应用(如 macOS 的 Terminal/iTerm2、Windows Terminal、GNOME...
云服务模型深度对比分析:从IaaS到MaaS的演进
云服务模型深度对比分析:从IaaS到MaaS的演进 AI时代的服务模式革命 云计算服务模型经历了从基础设施抽象到智能模型抽象的深刻演进。MaaS(Model as a Service)作为AI时代的原生服务模式,标志着我们从"计算资源服务化"迈向"智能能力服务化"的新纪元。这不仅是技术架构的演进,更是商业模式和生产方式的根本性变革。 2006-2010 IaaS 基础设施即服务...