灵阙智能体平台 - 模型路由架构文档

版本: v1.1 | 更新日期: 2026-01-04

v1.1 更新: 删除5个免费 Google API 账号,仅保留 Ai-studio-jason(付费账号,2026-3-26到期),Gemini fallback 到 Poe API nano-banana-pro

v1.0 更新: 引入质量档位(Premium/Balanced/Fast)、MoA多模型协作、视频/音频模型路由扩展,OpenAI 5.2 系列优先与 Gemini 2.5 Pro TTS 首选


1. 架构概览

┌─────────────────────────────────────────────────────────────────────────┐
│                        用户请求 (User Request)                           │
└─────────────────────────────────────┬───────────────────────────────────┘
                                      │
                                      ▼
┌─────────────────────────────────────────────────────────────────────────┐
│                    场景配置管理器 (ModelConfigManager)                    │
│                         lib/model-config.ts                             │
│  ┌─────────────────────────────────────────────────────────────────┐   │
│  │ 场景类型: chat | code | vision | image | video | embedding | audio_stt/tts | reranker │
│  └─────────────────────────────────────────────────────────────────┘   │
└─────────────────────────────────────┬───────────────────────────────────┘
                                      │
                                      ▼
┌─────────────────────────────────────────────────────────────────────────┐
│                      智能路由器 (SmartRouter)                            │
│                        lib/llm/smart-router.ts                          │
│  ┌─────────────────────────────────────────────────────────────────┐   │
│  │ 1. 识别模型系列 (ModelFamily)                                      │
│  │ 2. 获取路由配置 (RouteConfig)                                      │
│  │ 3. 获取已配置的 Fallback 链                                        │
│  │ 4. 按顺序尝试调用,失败则继续下一个                                   │
│  └─────────────────────────────────────────────────────────────────┘   │
└─────────────────────────────────────┬───────────────────────────────────┘
                                      │
                    ┌─────────────────┼─────────────────┐
                    │                 │                 │
                    ▼                 ▼                 ▼
┌─────────────┐ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐
│   Poe API   │ │ OpenRouter  │ │ SiliconFlow │ │  原生 API   │
│  (聚合优先)  │ │  (备用)     │ │  (国内加速)  │ │  (保底)     │
└─────────────┘ └─────────────┘ └─────────────┘ └─────────────┘

1.1 路由设计原则

  • 质量档位:Premium/Balanced/Fast 三档,按任务价值与时延自动选择
  • 多模型协作:深度研究/事实核查引入 MoA 交叉验证
  • 场景优先:文本/视觉/视频/音频分场景路由,避免“一刀切”
  • 成本可控:按模型成本与成功率动态排序 fallback 链
  • 可观测闭环:记录路由轨迹、质量评分与失败原因,持续调优

2. 场景默认模型配置

2.1 质量档位(Quality Tiers)

档位 目标 代表模型
Premium 最高质量/复杂任务 GPT-5.2 Pro、Claude Opus 4.5、Gemini 3 Pro
Balanced 默认体验 GPT-5.2、Claude Sonnet 4.5、Gemini 3 Pro
Fast 低时延/低成本 Gemini 2.5 Flash、Claude Haiku 4.5、GPT-5.2 Nano

2.2 场景默认模型配置(Balanced)

场景 场景类型 默认模型链 说明
对话交流 chat gemini-3-pro → gpt-5.2 → claude-sonnet-4.5 通用对话与业务场景
代码生成 code gpt-5.2 → claude-sonnet-4.5 → deepseek-v3 编码优先
视觉理解 vision gemini-3-pro → gpt-5.2-vision → claude-4.5-vision 多模态理解
图片生成 image nano-banana-pro → gpt-image-1.5 → seedream-4.5 文字/风格分链
视频生成 video veo-3.1 → sora-2 → kling-2.6 质量优先
向量嵌入 embedding voyage-3-large → text-embedding-3-large 召回/检索
语音转文本 audio_stt deepgram-nova-3 → whisper-v3 实时转写
文本转语音 audio_tts gemini-2.5-pro-tts → gemini-2.5-flash-tts → elevenlabs-turbo → elevenlabs-v3 低延迟
文本重排 reranker cohere-rerank-3 → bge-reranker-large RAG优化
工作流 workflow gpt-5.2-pro → claude-opus-4.5 → gemini-3-pro 推理与规划

2.3 SOTA 快照(LMArena)

数据来源:https://lmarena.ai/leaderboard(通过 r.jina.ai 拉取,时间以页面标注为准)

  • Text(4 days ago):gemini-3-pro、gemini-3-flash、grok-4.1-thinking、claude-opus-4.5-thinking、claude-opus-4.5
  • WebDev(5 days ago):claude-opus-4.5-thinking、gpt-5.2-high、claude-opus-4.5、gemini-3-pro、gemini-3-flash
  • Vision(17 days ago):gemini-3-pro、gemini-3-flash、gemini-3-flash-thinking-minimal、gpt-5.1-high、gemini-2.5-pro
  • Search(16 days ago):gemini-3-pro-grounding、gpt-5.2-search、gpt-5.1-search、grok-4-1-fast-search、grok-4-fast-search

配置文件: lib/model-config.ts SOTA服务: lib/llm/sota-leaderboard.ts/api/models/sota(AA 优先,LMArena 兜底)

注:LMArena 的 *-high/medium 命名在内部通过别名映射为 gpt-5.2-pro/gpt-5.2 等,以保持路由一致性。


3. 模型系列识别规则

模型系列 识别规则 示例
GPT gpt-*, o1-*, o3*, chatgpt gpt-4o, o1-mini, o3-pro
Claude claude* claude-sonnet-4.5
Gemini gemini* gemini-3-pro
DeepSeek deepseek* deepseek-v3, deepseek-r1
GLM glm* glm-4.6
Kimi moonshot*, kimi* kimi-latest
Qwen qwen*, qwq* qwen-max
Llama llama* llama-3.3-70b
Mistral mistral*, mixtral* mistral-large

4. Fallback 路由链

4.1 路由策略: 聚合优先 (Aggregator-First)

模型系列 原生Provider Fallback链 (按优先级)
GPT OpenAI Poe → OpenRouter → Zenmux → OpenAI
Claude Anthropic Poe → OpenRouter → Anthropic
Gemini Google Google (Ai-studio-jason) → Poe (nano-banana-pro) → OpenRouter
DeepSeek DeepSeek Poe → Zenmux → OpenRouter → DeepSeek
GLM 智谱 Zenmux → Poe → OpenRouter → Zhipu
Kimi Moonshot Zenmux → Poe → OpenRouter → Kimi
Qwen 阿里云 Zenmux → Poe → OpenRouter → Alibaba
Llama Poe Poe → OpenRouter → Zenmux
Mistral Poe Poe → OpenRouter → Zenmux
Other Poe Poe → OpenRouter → Zenmux

4.2 特殊处理: Google Gemini

2026-01-04 更新:删除5个免费账号,仅保留付费账号 Ai-studio-jason(300免费额度,2026-3-26到期),Gemini 系列 fallback 到 Poe API nano-banana-pro

Google 系列使用付费账号,fallback 到 Poe API:

// Google AI Studio 配置(单账号 + Poe fallback)
const GOOGLE_API_KEYS = [
  { email: 'Ai-studio-jason', priority: 0, expiresAt: '2026-03-26' },
];

// Gemini fallback 链: Google -> Poe (nano-banana-pro) -> OpenRouter

4.3 图片生成模型路由 (2026-01-05 更新)

分辨率配置规则

┌─────────────────────────────────────────────────────────────────────────┐
│                        分辨率选择规则                                    │
├─────────────────────────────────────────────────────────────────────────┤
│                                                                         │
│  ⚠️ 硬约束:最低分辨率 2K,禁止使用 2K 以下                              │
│                                                                         │
│  质量等级映射:                                                          │
│  ├─ "标准" (standard) → 2K (2048×1152)                                 │
│  └─ "高清" (hd) → 4K (3840×2160)                                       │
│                                                                         │
│  PPT/视频场景复杂度映射:                                                 │
│  ├─ "复杂信息图" (complex) → 默认 4K                                    │
│  └─ "普通模式" (normal) → 默认 2K                                       │
│                                                                         │
│  旧格式兼容:                                                            │
│  ├─ '1k' → 强制升级到 2K                                                │
│  ├─ '2k' → 2K                                                          │
│  └─ '4k' → 4K                                                          │
└─────────────────────────────────────────────────────────────────────────┘

分辨率配置代码

// lib/services/image-generation.ts

export const RESOLUTION_CONFIG = {
  // 质量等级 → 分辨率映射
  qualityToResolution: {
    'standard': '2k',  // 标准 → 2K
    'hd': '4k',        // 高清 → 4K
    '1k': '2k',        // 1K 强制升级到 2K(禁止 1K)
    '2k': '2k',
    '4k': '4k',
  },

  // 复杂度 → 默认分辨率映射(PPT/视频场景)
  complexityToResolution: {
    'complex': '4k',   // 复杂信息图 → 4K
    'normal': '2k',    // 普通模式 → 2K
  },

  // 最低分辨率(硬约束)
  minResolution: '2k',
};

调用示例

// 示例 1:标准质量 → 2K
await generateImage({
  prompt: '...',
  quality: 'standard',  // → 2K
});

// 示例 2:高清质量 → 4K
await generateImage({
  prompt: '...',
  quality: 'hd',  // → 4K
});

// 示例 3:复杂信息图 → 4K(忽略 quality 参数)
await generateImage({
  prompt: '...',
  quality: 'standard',
  complexity: 'complex',  // → 4K(复杂度优先)
});

// 示例 4:普通 PPT → 2K
await generateImage({
  prompt: '...',
  scenario: 'ppt',
  complexity: 'normal',  // → 2K
});

// 示例 5:禁止 1K(自动升级)
await generateImage({
  prompt: '...',
  quality: '1k',  // → 自动升级到 2K
});

核心规则

┌─────────────────────────────────────────────────────────────────────────┐
│                    图片生成路由决策流程                                   │
├─────────────────────────────────────────────────────────────────────────┤
│                                                                         │
│   用户请求 ──→ 场景判断 ──→ Provider 选择 ──→ 模型优先级链 ──→ 生成      │
│                  │                │                                     │
│                  ▼                ▼                                     │
│        ┌─────────────────┐  ┌─────────────────┐                        │
│        │ scenario='ppt'  │  │ Google API 可用? │                        │
│        │ 需要渲染文字    │  │     ↓ Yes/No     │                        │
│        └────────┬────────┘  └────────┬────────┘                        │
│                 │                    │                                  │
│                 ▼                    ▼                                  │
│        poeWithText 链         Google 链 / Poe 链                        │
│        (3个模型)              (完整 fallback)                            │
└─────────────────────────────────────────────────────────────────────────┘

文字渲染约束规则 (底层强制)

⚠️ 底层强制约束: 除特定模型外,所有图片生成禁止包含任何文字

场景 允许文字 说明
scenario='ppt' ✅ 是 PPT/信息图需要渲染中文
provider='poe' + nano-banana-pro ✅ 是 该模型支持文字
其他所有场景 ❌ 否 Prompt 中自动添加禁止文字指令

有文字的图片生成任务 (scenario: 'ppt')

适用于 PPT 幻灯片、信息图、海报等需要渲染中文文字的场景。

Google API 优先链:

优先级 模型 说明
1 gemini-3-pro-image-preview Gemini 3 Pro Image,支持中文
2 gemini-3-flash-image-preview Gemini 3 Flash Image

Poe API 优先链 (poeWithText):

优先级 模型 支持4K 支持文字 说明
1 nano-banana-pro Gemini 3 Pro Image,首选
2 GPT-Image-1.5 OpenAI 最新图像模型
3 ideogram-v3 文字排版与可读性强
4 recraft-v3 文字与矢量风格
5 nano-banana Gemini 3 Image 标准版

无文字的图片生成任务 (scenario: 'pure-image')

适用于纯图片生成、艺术创作等无文字场景,允许更长的 fallback 链。

Google API 优先链:

优先级 模型 说明
1 gemini-3-pro-image-preview Gemini 3 Pro Image
2 gemini-3-flash-image-preview Gemini 3 Flash Image
3 gemini-2.5-flash-exp-image-generation Gemini 2.5 Flash

Poe API 完整 fallback 链 (poe):

优先级 模型 支持4K 风格 速度 说明
1 nano-banana-pro photorealistic medium Gemini 3 Pro Image,首选
2 GPT-Image-1.5 photorealistic medium OpenAI 图像模型
3 nano-banana photorealistic fast 标准版
4 seedream-4.5 photorealistic medium Seedream 高质量
5 seedream-4.0 photorealistic fast Seedream 稳定版
6 FLUX-2-Pro artistic medium 高质感风格
7 FLUX-2 artistic medium 风格多样
8 recraft-v3 artistic medium 矢量与图形
9 ideogram-v3 artistic medium 文字排版
10 Kling-O1 photorealistic slow 快手可灵 O1
11 kling-2.6 photorealistic medium 快手可灵 2.6
12 wan-2.6 photorealistic medium Wan 2.6
13 DALL-E-3 photorealistic medium OpenAI DALL-E

代码配置

// lib/services/image-generation.ts

export const IMAGE_MODEL_PRIORITY = {
  google: [
    'gemini-3-pro-image-preview',
    'gemini-3-flash-image-preview',
    'gemini-2.0-flash-exp-image-generation',
  ],
  openai: ['gpt-image-1.5', 'dall-e-3'],

  // 有文字场景 (PPT/图文) - 短链
  poeWithText: [
    'nano-banana-pro',  // 首选
    'GPT-Image-1.5',    // Fallback 1
    'ideogram-v3',      // 文字排版增强
    'recraft-v3',       // 文字与矢量风格
    'nano-banana',      // Fallback 2
  ],

  // 无文字场景 (纯图片) - 完整链
  poe: [
    'nano-banana-pro',
    'GPT-Image-1.5',
    'nano-banana',
    'seedream-4.5',
    'seedream-4.0',
    'FLUX-2-Pro',
    'FLUX-2',
    'recraft-v3',
    'ideogram-v3',
    'Kling-O1',
    'kling-2.6',
    'wan-2.6',
    'DALL-E-3',
  ],
};

路由函数

// getAllowedModelsForScenario(scenario, provider, quality, preferredModel)
//
// 路由规则:
// - scenario='ppt' + provider='poe' → IMAGE_MODEL_PRIORITY.poeWithText
// - scenario='pure-image' + provider='poe' → IMAGE_MODEL_PRIORITY.poe
// - provider='google' → IMAGE_MODEL_PRIORITY.google
// - 如果用户指定 preferredModel,则优先使用该模型

配置文件: lib/services/image-generation.ts


4.4 MoA/多模型协作路由(高价值任务)

适用于深度研究、事实核查、合规审查等高风险任务:

  • 并行模型:GPT-5.2 Pro + Claude Opus 4.5 + Gemini 3 Pro
  • 合并策略:一致性评分 + 证据归并 + 置信度门槛
  • 输出形式:主结论 + 关键分歧点 + 证据来源

4.5 文本处理 API 路由

2026-01-05 更新:所有文本处理 API 统一使用 Gemini 3 Flash → GPT 5.2 → Claude Sonnet 4.5 → Poe 优先级链

API 路由 场景 模型优先级
/api/services/slide-ai-assist PPT 内容生成、图片提示词 Gemini 3 Flash → GPT 5.2 → Claude Sonnet 4.5 → Poe
/api/services/ai-text-enhance 润色、扩写、精简、纠错 Gemini 3 Flash → GPT 5.2 → Claude Sonnet 4.5 → Poe
/api/services/ai-polish 视频脚本润色 Gemini 3 Flash → GPT 5.2 → Claude Sonnet 4.5 → Poe

路由决策流程

┌─────────────────────────────────────────────────────────────────────────┐
│                    文本处理 API 模型路由                                  │
├─────────────────────────────────────────────────────────────────────────┤
│                                                                         │
│   用户请求 ──→ 默认模型 ──→ 尝试调用 ──→ 成功? ──→ 返回结果              │
│                  │             │         │                              │
│                  ▼             ▼         ▼                              │
│   ┌─────────────────────────────────────────────────────────────┐      │
│   │ 优先级 1: Gemini 3 Flash Preview (Google)                    │      │
│   │          - 速度快、Token 限制高                               │      │
│   │          - 中文处理能力强                                     │      │
│   └─────────────────────────────────────────────────────────────┘      │
│                  │ 失败                                                  │
│                  ▼                                                       │
│   ┌─────────────────────────────────────────────────────────────┐      │
│   │ 优先级 2: GPT 5.2 (OpenAI)                                   │      │
│   │          - 高可用备选                                         │      │
│   │          - 指令遵循能力强                                     │      │
│   └─────────────────────────────────────────────────────────────┘      │
│                  │ 失败                                                  │
│                  ▼                                                       │
│   ┌─────────────────────────────────────────────────────────────┐      │
│   │ 优先级 3: Claude Sonnet 4.5 (Anthropic)                       │      │
│   │          - 推理/总结稳健                                       │      │
│   │          - 长文本理解强                                       │      │
│   └─────────────────────────────────────────────────────────────┘      │
│                  │ 失败                                                  │
│                  ▼                                                       │
│   ┌─────────────────────────────────────────────────────────────┐      │
│   │ 优先级 4: Poe API (聚合平台)                                  │      │
│   │          - 最终保底                                           │      │
│   │          - 稳定可靠                                           │      │
│   └─────────────────────────────────────────────────────────────┘      │
│                                                                         │
└─────────────────────────────────────────────────────────────────────────┘

配置文件

  • app/api/services/slide-ai-assist/route.ts
  • app/api/services/ai-text-enhance/route.ts
  • app/api/services/ai-polish/route.ts

4.6 视频生成模型路由

场景 模型优先级链(示例)
营销短视频 Veo 3.1 → Sora 2 → Kling 2.6 → Seedance Pro → Hailuo-2.3
电商产品视频 Kling 2.6 → Veo 3.1 → Wan 2.6
影视质感/高保真 Sora 2 → Veo 3.1 → PixVerse V5

4.7 音频模型路由

  • TTS:Gemini 2.5 Pro TTS → Gemini 2.5 Flash TTS → ElevenLabs Turbo → ElevenLabs V3
  • 配乐/语音生成:Mureka / Lyria2 → Minimax

5. 聚合平台 API 配置

平台 Base URL 环境变量
Poe https://api.poe.com/v1 POE_API_KEY
OpenRouter https://openrouter.ai/api/v1 OPENROUTER_API_KEY
SiliconFlow https://api.siliconflow.cn/v1 SILICONFLOW_API_KEY
Zenmux https://api.zenmux.ai/v1 ZENMUX_API_KEY

5.1 原生 Provider API

Provider Base URL 环境变量
OpenAI https://api.openai.com/v1 OPENAI_API_KEY
Anthropic https://api.anthropic.com ANTHROPIC_API_KEY
Google https://generativelanguage.googleapis.com/v1beta GOOGLE_API_KEY
DeepSeek https://api.deepseek.com/v1 DEEPSEEK_API_KEY
智谱 https://open.bigmodel.cn/api/paas/v4 ZHIPU_API_KEY
Moonshot https://api.moonshot.cn/v1 MOONSHOT_API_KEY

6. 模型ID转换映射

6.1 Poe 平台模型映射

const POE_MODEL_MAP = {
  // GPT 系列
  'gpt-4o': 'GPT-4o',
  'gpt-4o-mini': 'GPT-4o-Mini',
  'o1': 'o1',
  'o3': 'o3',

  // Claude 系列
  'claude-opus-4.5': 'Claude-Opus-4.1',
  'claude-sonnet-4.5': 'Claude-Sonnet-4',
  'claude-3-5-haiku': 'Claude-3.5-Haiku',

  // Gemini 系列 (NanoBanana)
  'gemini-3-pro': 'NanoBanana-Pro',
  'gemini-2.5-pro': 'Gemini-2.5-Pro',
  'gemini-2.5-flash': 'Gemini-2.5-Flash',

  // DeepSeek 系列
  'deepseek-v3': 'DeepSeek-V3',
  'deepseek-r1': 'DeepSeek-R1',
};

TODO: 补齐 GPT-5.2 / GPT-5.2 Pro / GPT o3 Pro / Flux 2 / Recraft V3 / Ideogram V3 等新模型映射(以聚合平台实际 ID 为准)

6.2 OpenRouter 模型映射

// 格式: provider/model-name
'gemini-3-pro' → 'google/gemini-3-pro-preview'
'claude-sonnet-4.5' → 'anthropic/claude-3-5-sonnet-20241022'
'gpt-4o' → 'openai/gpt-4o'
'deepseek-v3' → 'deepseek/deepseek-chat'

6.3 Google AI Studio 模型映射

const GOOGLE_MODEL_MAP = {
  'gemini-3-pro': 'gemini-2.5-pro',        // 3.x 映射到 2.5
  'gemini-3-flash': 'gemini-2.5-flash',
  'gemini-2.5-pro': 'gemini-2.5-pro',
  'gemini-2.5-flash': 'gemini-2.5-flash',
  'gemini-2.0-flash': 'gemini-2.0-flash',
};

7. LLM 模型清单 (SOTA 2026-01)

7.1 旗舰模型

模型 Provider 上下文 价格($/M tokens) 特点
Gemini 3 Pro Google 1M $2/$12 LMArena榜首,PhD级推理
GPT-5.2 Pro OpenAI 400K TBD 最强通用,Agent首选
Claude Opus 4.5 Anthropic 200K $15/$75 最强Claude,深度分析

7.2 主力/性价比模型

模型 Provider 上下文 价格($/M tokens) 特点
DeepSeek V3 DeepSeek 128K $0.14/$0.28 中文SOTA,超低成本
Gemini 3 Flash Google 1M $0.075/$0.30 极速,超高性价比
GPT-5.2 OpenAI 400K TBD 主力模型,平衡质量与成本
GPT-5.2 Nano OpenAI 400K TBD 极致性价比,实时应用
Claude Haiku 4.5 Anthropic 200K $0.25/$1.25 极速响应,简单任务

7.3 代码专精模型

模型 Provider 特点
Claude Sonnet 4.5 Anthropic SWE-bench 72.7%
GPT-5.2 Codex OpenAI 编程SOTA
DeepSeek Coder V3 DeepSeek 338种语言

7.4 推理模型

模型 Provider 特点
o3 Pro OpenAI AGI级别,ARC-AGI突破
o4-mini OpenAI 高性价比推理
DeepSeek R1 DeepSeek 数学SOTA,开源
GLM-Z1 智谱 中文推理SOTA

8. 其他模型类别

8.1 Vision/OCR 模型

模型 Provider 特点 价格
Gemini 3 Pro Image Google 4K超高清,14图合成 $0.02/张
DeepSeek-OCR DeepSeek OCR SOTA,97%准确率 $0.0001/张
GPT-5.2 Vision OpenAI 最强视觉理解 $0.025/张
Claude 4.5 Vision Anthropic 文档理解SOTA $0.06/张

8.2 图片生成模型 (Image Generation)

模型 Provider 支持4K 支持中文文字 风格 说明
nano-banana-pro Poe (Gemini 3) photorealistic 首选,支持中文渲染
GPT-Image-1.5 Poe (OpenAI) photorealistic OpenAI 最新图像模型
nano-banana Poe (Gemini 3) photorealistic 标准版,速度快
seedream-4.5 Poe photorealistic 高质量图像
seedream-4.0 Poe photorealistic 稳定版
FLUX-2-Pro Poe artistic 高质感风格
FLUX-2 Poe artistic 风格多样
recraft-v3 Poe artistic 文字/矢量风格
ideogram-v3 Poe artistic 文字排版强
Kling-O1 Poe (快手) photorealistic 快手可灵 O1
kling-2.6 Poe (快手) photorealistic 快手可灵 2.6
wan-2.6 Poe photorealistic Wan 2.6
DALL-E-3 Poe (OpenAI) photorealistic OpenAI DALL-E

8.3 Embedding 模型

模型 Provider 特点 价格($/M tokens)
Voyage-3-large Voyage AI 8域SOTA $0.12
Voyage-3-lite Voyage AI 性价比SOTA $0.02
text-embedding-3-large OpenAI 稳定可靠 $0.13

8.4 Audio 模型

模型 Provider 类型 特点 价格
Deepgram Nova-3 Deepgram STT 比Whisper准36% $0.0043/分钟
Whisper v3 OpenAI STT 开源,多语言 $0.006/分钟
Gemini 2.5 Pro TTS Google TTS 语音自然度最佳 TBD
Gemini 2.5 Flash TTS Google TTS 低时延 TBD
ElevenLabs V3 ElevenLabs TTS 50语言,情感SOTA $0.20/分钟
ElevenLabs Turbo V3 ElevenLabs TTS 超低延迟,实时对话 $0.08/分钟
Gemini Audio Google TTS 多语种/多模态 TBD
Minimax Audio MiniMax TTS 中文自然度 TBD
Mureka Mureka Music 配乐生成 TBD
Lyria2 Google Music 高质量音乐生成 TBD

8.5 Video 模型

模型 Provider 时长/分辨率 特点
Veo 3.1 Google 4s/720-1080p 电影级画质
Sora 2 OpenAI 4s/720-1080p 高保真生成
Kling 2.6 快手 5s/多分辨率 运动与人物表现强
Seedance Pro 字节 5s/多分辨率 动作/舞蹈
Hailuo-2.3 MiniMax 6s/多分辨率 中文场景适配
PixVerse V5 PixVerse 5s/多分辨率 风格化
Vidu Q2 Vidu 5s/多分辨率 速度快
Wan 2.6 Wan 5s/多分辨率 稳定输出

8.6 Reranker 模型

模型 Provider 特点 价格($/M tokens)
Cohere Rerank 3 Cohere RAG优化SOTA $2.00
BGE-reranker-large BAAI 开源,可自托管 免费

9. 调用流程示例

// 1. 用户发起请求
const result = await smartRouter.chatCompletion({
  model: 'claude-sonnet-4.5',
  messages: [{ role: 'user', content: 'Hello' }],
});

// 2. SmartRouter 处理流程
// 2.1 识别模型系列: claude
// 2.2 获取路由配置: { fallbackChain: ['poe', 'openrouter', 'anthropic'] }
// 2.3 检查已配置的 Provider

// 3. 按顺序尝试
// 尝试 Poe: 转换 claude-sonnet-4.5 → Claude-Sonnet-4
// 如果失败 → 尝试 OpenRouter: anthropic/claude-3-5-sonnet-20241022
// 如果失败 → 尝试 Anthropic: claude-3-5-sonnet-20241022

// 4. 返回结果
console.log(result.actualProvider);  // 实际使用的 provider
console.log(result.attemptedProviders);  // 尝试过的 providers
console.log(result.errors);  // 失败的 providers 及错误信息

10. 环境变量配置

# 聚合平台 (推荐配置)
POE_API_KEY=xxx
OPENROUTER_API_KEY=xxx
SILICONFLOW_API_KEY=xxx
ZENMUX_API_KEY=xxx

# 原生 Provider (可选,作为保底)
OPENAI_API_KEY=xxx
ANTHROPIC_API_KEY=xxx
GOOGLE_API_KEY=xxx  # 或使用内置的 6 账号轮询
DEEPSEEK_API_KEY=xxx
ZHIPU_API_KEY=xxx
MOONSHOT_API_KEY=xxx

# 特殊服务
VOYAGE_API_KEY=xxx      # Embedding
DEEPGRAM_API_KEY=xxx    # STT
ELEVENLABS_API_KEY=xxx  # TTS
COHERE_API_KEY=xxx      # Reranker

11. 核心文件索引

文件 职责
lib/model-config.ts 场景配置管理器
lib/model-providers.ts 模型定义库 (SOTA列表)
lib/llm/model-router.ts 路由链定义 + 模型ID转换
lib/llm/smart-router.ts 智能路由器 (自动 fallback)
lib/llm/llm-service.ts 统一 LLM 服务封装
lib/llm/registry.ts Provider 注册表
lib/llm/providers/*.ts 各 Provider 实现
lib/services/image-generation.ts 图片生成服务 (模型优先级 + 路由逻辑)

11.1 图片生成关键配置

配置项 位置 说明
IMAGE_MODEL_PRIORITY image-generation.ts:232 各 Provider 的模型优先级数组
POE_IMAGE_MODELS image-generation.ts:276 Poe 平台模型详细配置
getAllowedModelsForScenario() image-generation.ts:414 场景→模型列表的路由函数
generateWithGoogle() image-generation.ts:670 Google API 图片生成实现
generateWithPoe() image-generation.ts:880 Poe API 图片生成实现

猪哥云(四川)网络科技有限公司 | 合规网 www.hegui.com 猪哥云-数据产品部-Maurice | maurice_wen@proton.me 2025 猪哥云-灵阙企业级智能体平台