灵阙智能体平台 - 模型路由架构文档
AI 导读
灵阙智能体平台 - 模型路由架构文档 版本: v1.1 | 更新日期: 2026-01-04 v1.1 更新: 删除5个免费 Google API 账号,仅保留 Ai-studio-jason(付费账号,2026-3-26到期),Gemini fallback 到 Poe API nano-banana-pro v1.0 更新:...
灵阙智能体平台 - 模型路由架构文档
版本: v1.1 | 更新日期: 2026-01-04
v1.1 更新: 删除5个免费 Google API 账号,仅保留 Ai-studio-jason(付费账号,2026-3-26到期),Gemini fallback 到 Poe API nano-banana-pro
v1.0 更新: 引入质量档位(Premium/Balanced/Fast)、MoA多模型协作、视频/音频模型路由扩展,OpenAI 5.2 系列优先与 Gemini 2.5 Pro TTS 首选
1. 架构概览
┌─────────────────────────────────────────────────────────────────────────┐
│ 用户请求 (User Request) │
└─────────────────────────────────────┬───────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────────────────────┐
│ 场景配置管理器 (ModelConfigManager) │
│ lib/model-config.ts │
│ ┌─────────────────────────────────────────────────────────────────┐ │
│ │ 场景类型: chat | code | vision | image | video | embedding | audio_stt/tts | reranker │
│ └─────────────────────────────────────────────────────────────────┘ │
└─────────────────────────────────────┬───────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────────────────────┐
│ 智能路由器 (SmartRouter) │
│ lib/llm/smart-router.ts │
│ ┌─────────────────────────────────────────────────────────────────┐ │
│ │ 1. 识别模型系列 (ModelFamily) │
│ │ 2. 获取路由配置 (RouteConfig) │
│ │ 3. 获取已配置的 Fallback 链 │
│ │ 4. 按顺序尝试调用,失败则继续下一个 │
│ └─────────────────────────────────────────────────────────────────┘ │
└─────────────────────────────────────┬───────────────────────────────────┘
│
┌─────────────────┼─────────────────┐
│ │ │
▼ ▼ ▼
┌─────────────┐ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐
│ Poe API │ │ OpenRouter │ │ SiliconFlow │ │ 原生 API │
│ (聚合优先) │ │ (备用) │ │ (国内加速) │ │ (保底) │
└─────────────┘ └─────────────┘ └─────────────┘ └─────────────┘
1.1 路由设计原则
- 质量档位:Premium/Balanced/Fast 三档,按任务价值与时延自动选择
- 多模型协作:深度研究/事实核查引入 MoA 交叉验证
- 场景优先:文本/视觉/视频/音频分场景路由,避免“一刀切”
- 成本可控:按模型成本与成功率动态排序 fallback 链
- 可观测闭环:记录路由轨迹、质量评分与失败原因,持续调优
2. 场景默认模型配置
2.1 质量档位(Quality Tiers)
| 档位 | 目标 | 代表模型 |
|---|---|---|
| Premium | 最高质量/复杂任务 | GPT-5.2 Pro、Claude Opus 4.5、Gemini 3 Pro |
| Balanced | 默认体验 | GPT-5.2、Claude Sonnet 4.5、Gemini 3 Pro |
| Fast | 低时延/低成本 | Gemini 2.5 Flash、Claude Haiku 4.5、GPT-5.2 Nano |
2.2 场景默认模型配置(Balanced)
| 场景 | 场景类型 | 默认模型链 | 说明 |
|---|---|---|---|
| 对话交流 | chat |
gemini-3-pro → gpt-5.2 → claude-sonnet-4.5 |
通用对话与业务场景 |
| 代码生成 | code |
gpt-5.2 → claude-sonnet-4.5 → deepseek-v3 |
编码优先 |
| 视觉理解 | vision |
gemini-3-pro → gpt-5.2-vision → claude-4.5-vision |
多模态理解 |
| 图片生成 | image |
nano-banana-pro → gpt-image-1.5 → seedream-4.5 |
文字/风格分链 |
| 视频生成 | video |
veo-3.1 → sora-2 → kling-2.6 |
质量优先 |
| 向量嵌入 | embedding |
voyage-3-large → text-embedding-3-large |
召回/检索 |
| 语音转文本 | audio_stt |
deepgram-nova-3 → whisper-v3 |
实时转写 |
| 文本转语音 | audio_tts |
gemini-2.5-pro-tts → gemini-2.5-flash-tts → elevenlabs-turbo → elevenlabs-v3 |
低延迟 |
| 文本重排 | reranker |
cohere-rerank-3 → bge-reranker-large |
RAG优化 |
| 工作流 | workflow |
gpt-5.2-pro → claude-opus-4.5 → gemini-3-pro |
推理与规划 |
2.3 SOTA 快照(LMArena)
数据来源:https://lmarena.ai/leaderboard(通过 r.jina.ai 拉取,时间以页面标注为准)
- Text(4 days ago):gemini-3-pro、gemini-3-flash、grok-4.1-thinking、claude-opus-4.5-thinking、claude-opus-4.5
- WebDev(5 days ago):claude-opus-4.5-thinking、gpt-5.2-high、claude-opus-4.5、gemini-3-pro、gemini-3-flash
- Vision(17 days ago):gemini-3-pro、gemini-3-flash、gemini-3-flash-thinking-minimal、gpt-5.1-high、gemini-2.5-pro
- Search(16 days ago):gemini-3-pro-grounding、gpt-5.2-search、gpt-5.1-search、grok-4-1-fast-search、grok-4-fast-search
配置文件: lib/model-config.ts
SOTA服务: lib/llm/sota-leaderboard.ts → /api/models/sota(AA 优先,LMArena 兜底)
注:LMArena 的
*-high/medium命名在内部通过别名映射为gpt-5.2-pro/gpt-5.2等,以保持路由一致性。
3. 模型系列识别规则
| 模型系列 | 识别规则 | 示例 |
|---|---|---|
| GPT | gpt-*, o1-*, o3*, chatgpt |
gpt-4o, o1-mini, o3-pro |
| Claude | claude* |
claude-sonnet-4.5 |
| Gemini | gemini* |
gemini-3-pro |
| DeepSeek | deepseek* |
deepseek-v3, deepseek-r1 |
| GLM | glm* |
glm-4.6 |
| Kimi | moonshot*, kimi* |
kimi-latest |
| Qwen | qwen*, qwq* |
qwen-max |
| Llama | llama* |
llama-3.3-70b |
| Mistral | mistral*, mixtral* |
mistral-large |
4. Fallback 路由链
4.1 路由策略: 聚合优先 (Aggregator-First)
| 模型系列 | 原生Provider | Fallback链 (按优先级) |
|---|---|---|
| GPT | OpenAI | Poe → OpenRouter → Zenmux → OpenAI |
| Claude | Anthropic | Poe → OpenRouter → Anthropic |
| Gemini | Google (Ai-studio-jason) → Poe (nano-banana-pro) → OpenRouter |
|
| DeepSeek | DeepSeek | Poe → Zenmux → OpenRouter → DeepSeek |
| GLM | 智谱 | Zenmux → Poe → OpenRouter → Zhipu |
| Kimi | Moonshot | Zenmux → Poe → OpenRouter → Kimi |
| Qwen | 阿里云 | Zenmux → Poe → OpenRouter → Alibaba |
| Llama | Poe | Poe → OpenRouter → Zenmux |
| Mistral | Poe | Poe → OpenRouter → Zenmux |
| Other | Poe | Poe → OpenRouter → Zenmux |
4.2 特殊处理: Google Gemini
2026-01-04 更新:删除5个免费账号,仅保留付费账号
Ai-studio-jason(300免费额度,2026-3-26到期),Gemini 系列 fallback 到 Poe API nano-banana-pro
Google 系列使用付费账号,fallback 到 Poe API:
// Google AI Studio 配置(单账号 + Poe fallback)
const GOOGLE_API_KEYS = [
{ email: 'Ai-studio-jason', priority: 0, expiresAt: '2026-03-26' },
];
// Gemini fallback 链: Google -> Poe (nano-banana-pro) -> OpenRouter
4.3 图片生成模型路由 (2026-01-05 更新)
分辨率配置规则
┌─────────────────────────────────────────────────────────────────────────┐
│ 分辨率选择规则 │
├─────────────────────────────────────────────────────────────────────────┤
│ │
│ ⚠️ 硬约束:最低分辨率 2K,禁止使用 2K 以下 │
│ │
│ 质量等级映射: │
│ ├─ "标准" (standard) → 2K (2048×1152) │
│ └─ "高清" (hd) → 4K (3840×2160) │
│ │
│ PPT/视频场景复杂度映射: │
│ ├─ "复杂信息图" (complex) → 默认 4K │
│ └─ "普通模式" (normal) → 默认 2K │
│ │
│ 旧格式兼容: │
│ ├─ '1k' → 强制升级到 2K │
│ ├─ '2k' → 2K │
│ └─ '4k' → 4K │
└─────────────────────────────────────────────────────────────────────────┘
分辨率配置代码:
// lib/services/image-generation.ts
export const RESOLUTION_CONFIG = {
// 质量等级 → 分辨率映射
qualityToResolution: {
'standard': '2k', // 标准 → 2K
'hd': '4k', // 高清 → 4K
'1k': '2k', // 1K 强制升级到 2K(禁止 1K)
'2k': '2k',
'4k': '4k',
},
// 复杂度 → 默认分辨率映射(PPT/视频场景)
complexityToResolution: {
'complex': '4k', // 复杂信息图 → 4K
'normal': '2k', // 普通模式 → 2K
},
// 最低分辨率(硬约束)
minResolution: '2k',
};
调用示例:
// 示例 1:标准质量 → 2K
await generateImage({
prompt: '...',
quality: 'standard', // → 2K
});
// 示例 2:高清质量 → 4K
await generateImage({
prompt: '...',
quality: 'hd', // → 4K
});
// 示例 3:复杂信息图 → 4K(忽略 quality 参数)
await generateImage({
prompt: '...',
quality: 'standard',
complexity: 'complex', // → 4K(复杂度优先)
});
// 示例 4:普通 PPT → 2K
await generateImage({
prompt: '...',
scenario: 'ppt',
complexity: 'normal', // → 2K
});
// 示例 5:禁止 1K(自动升级)
await generateImage({
prompt: '...',
quality: '1k', // → 自动升级到 2K
});
核心规则
┌─────────────────────────────────────────────────────────────────────────┐
│ 图片生成路由决策流程 │
├─────────────────────────────────────────────────────────────────────────┤
│ │
│ 用户请求 ──→ 场景判断 ──→ Provider 选择 ──→ 模型优先级链 ──→ 生成 │
│ │ │ │
│ ▼ ▼ │
│ ┌─────────────────┐ ┌─────────────────┐ │
│ │ scenario='ppt' │ │ Google API 可用? │ │
│ │ 需要渲染文字 │ │ ↓ Yes/No │ │
│ └────────┬────────┘ └────────┬────────┘ │
│ │ │ │
│ ▼ ▼ │
│ poeWithText 链 Google 链 / Poe 链 │
│ (3个模型) (完整 fallback) │
└─────────────────────────────────────────────────────────────────────────┘
文字渲染约束规则 (底层强制)
⚠️ 底层强制约束: 除特定模型外,所有图片生成禁止包含任何文字
| 场景 | 允许文字 | 说明 |
|---|---|---|
scenario='ppt' |
✅ 是 | PPT/信息图需要渲染中文 |
provider='poe' + nano-banana-pro |
✅ 是 | 该模型支持文字 |
| 其他所有场景 | ❌ 否 | Prompt 中自动添加禁止文字指令 |
有文字的图片生成任务 (scenario: 'ppt')
适用于 PPT 幻灯片、信息图、海报等需要渲染中文文字的场景。
Google API 优先链:
| 优先级 | 模型 | 说明 |
|---|---|---|
| 1 | gemini-3-pro-image-preview |
Gemini 3 Pro Image,支持中文 |
| 2 | gemini-3-flash-image-preview |
Gemini 3 Flash Image |
Poe API 优先链 (poeWithText):
| 优先级 | 模型 | 支持4K | 支持文字 | 说明 |
|---|---|---|---|---|
| 1 | nano-banana-pro |
✅ | ✅ | Gemini 3 Pro Image,首选 |
| 2 | GPT-Image-1.5 |
✅ | ✅ | OpenAI 最新图像模型 |
| 3 | ideogram-v3 |
✅ | ✅ | 文字排版与可读性强 |
| 4 | recraft-v3 |
✅ | ✅ | 文字与矢量风格 |
| 5 | nano-banana |
❌ | ✅ | Gemini 3 Image 标准版 |
无文字的图片生成任务 (scenario: 'pure-image')
适用于纯图片生成、艺术创作等无文字场景,允许更长的 fallback 链。
Google API 优先链:
| 优先级 | 模型 | 说明 |
|---|---|---|
| 1 | gemini-3-pro-image-preview |
Gemini 3 Pro Image |
| 2 | gemini-3-flash-image-preview |
Gemini 3 Flash Image |
| 3 | gemini-2.5-flash-exp-image-generation |
Gemini 2.5 Flash |
Poe API 完整 fallback 链 (poe):
| 优先级 | 模型 | 支持4K | 风格 | 速度 | 说明 |
|---|---|---|---|---|---|
| 1 | nano-banana-pro |
✅ | photorealistic | medium | Gemini 3 Pro Image,首选 |
| 2 | GPT-Image-1.5 |
✅ | photorealistic | medium | OpenAI 图像模型 |
| 3 | nano-banana |
❌ | photorealistic | fast | 标准版 |
| 4 | seedream-4.5 |
✅ | photorealistic | medium | Seedream 高质量 |
| 5 | seedream-4.0 |
✅ | photorealistic | fast | Seedream 稳定版 |
| 6 | FLUX-2-Pro |
✅ | artistic | medium | 高质感风格 |
| 7 | FLUX-2 |
✅ | artistic | medium | 风格多样 |
| 8 | recraft-v3 |
✅ | artistic | medium | 矢量与图形 |
| 9 | ideogram-v3 |
✅ | artistic | medium | 文字排版 |
| 10 | Kling-O1 |
✅ | photorealistic | slow | 快手可灵 O1 |
| 11 | kling-2.6 |
✅ | photorealistic | medium | 快手可灵 2.6 |
| 12 | wan-2.6 |
✅ | photorealistic | medium | Wan 2.6 |
| 13 | DALL-E-3 |
✅ | photorealistic | medium | OpenAI DALL-E |
代码配置
// lib/services/image-generation.ts
export const IMAGE_MODEL_PRIORITY = {
google: [
'gemini-3-pro-image-preview',
'gemini-3-flash-image-preview',
'gemini-2.0-flash-exp-image-generation',
],
openai: ['gpt-image-1.5', 'dall-e-3'],
// 有文字场景 (PPT/图文) - 短链
poeWithText: [
'nano-banana-pro', // 首选
'GPT-Image-1.5', // Fallback 1
'ideogram-v3', // 文字排版增强
'recraft-v3', // 文字与矢量风格
'nano-banana', // Fallback 2
],
// 无文字场景 (纯图片) - 完整链
poe: [
'nano-banana-pro',
'GPT-Image-1.5',
'nano-banana',
'seedream-4.5',
'seedream-4.0',
'FLUX-2-Pro',
'FLUX-2',
'recraft-v3',
'ideogram-v3',
'Kling-O1',
'kling-2.6',
'wan-2.6',
'DALL-E-3',
],
};
路由函数
// getAllowedModelsForScenario(scenario, provider, quality, preferredModel)
//
// 路由规则:
// - scenario='ppt' + provider='poe' → IMAGE_MODEL_PRIORITY.poeWithText
// - scenario='pure-image' + provider='poe' → IMAGE_MODEL_PRIORITY.poe
// - provider='google' → IMAGE_MODEL_PRIORITY.google
// - 如果用户指定 preferredModel,则优先使用该模型
配置文件: lib/services/image-generation.ts
4.4 MoA/多模型协作路由(高价值任务)
适用于深度研究、事实核查、合规审查等高风险任务:
- 并行模型:GPT-5.2 Pro + Claude Opus 4.5 + Gemini 3 Pro
- 合并策略:一致性评分 + 证据归并 + 置信度门槛
- 输出形式:主结论 + 关键分歧点 + 证据来源
4.5 文本处理 API 路由
2026-01-05 更新:所有文本处理 API 统一使用 Gemini 3 Flash → GPT 5.2 → Claude Sonnet 4.5 → Poe 优先级链
| API 路由 | 场景 | 模型优先级 |
|---|---|---|
/api/services/slide-ai-assist |
PPT 内容生成、图片提示词 | Gemini 3 Flash → GPT 5.2 → Claude Sonnet 4.5 → Poe |
/api/services/ai-text-enhance |
润色、扩写、精简、纠错 | Gemini 3 Flash → GPT 5.2 → Claude Sonnet 4.5 → Poe |
/api/services/ai-polish |
视频脚本润色 | Gemini 3 Flash → GPT 5.2 → Claude Sonnet 4.5 → Poe |
路由决策流程:
┌─────────────────────────────────────────────────────────────────────────┐
│ 文本处理 API 模型路由 │
├─────────────────────────────────────────────────────────────────────────┤
│ │
│ 用户请求 ──→ 默认模型 ──→ 尝试调用 ──→ 成功? ──→ 返回结果 │
│ │ │ │ │
│ ▼ ▼ ▼ │
│ ┌─────────────────────────────────────────────────────────────┐ │
│ │ 优先级 1: Gemini 3 Flash Preview (Google) │ │
│ │ - 速度快、Token 限制高 │ │
│ │ - 中文处理能力强 │ │
│ └─────────────────────────────────────────────────────────────┘ │
│ │ 失败 │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────────┐ │
│ │ 优先级 2: GPT 5.2 (OpenAI) │ │
│ │ - 高可用备选 │ │
│ │ - 指令遵循能力强 │ │
│ └─────────────────────────────────────────────────────────────┘ │
│ │ 失败 │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────────┐ │
│ │ 优先级 3: Claude Sonnet 4.5 (Anthropic) │ │
│ │ - 推理/总结稳健 │ │
│ │ - 长文本理解强 │ │
│ └─────────────────────────────────────────────────────────────┘ │
│ │ 失败 │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────────┐ │
│ │ 优先级 4: Poe API (聚合平台) │ │
│ │ - 最终保底 │ │
│ │ - 稳定可靠 │ │
│ └─────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────┘
配置文件:
app/api/services/slide-ai-assist/route.tsapp/api/services/ai-text-enhance/route.tsapp/api/services/ai-polish/route.ts
4.6 视频生成模型路由
| 场景 | 模型优先级链(示例) |
|---|---|
| 营销短视频 | Veo 3.1 → Sora 2 → Kling 2.6 → Seedance Pro → Hailuo-2.3 |
| 电商产品视频 | Kling 2.6 → Veo 3.1 → Wan 2.6 |
| 影视质感/高保真 | Sora 2 → Veo 3.1 → PixVerse V5 |
4.7 音频模型路由
- TTS:Gemini 2.5 Pro TTS → Gemini 2.5 Flash TTS → ElevenLabs Turbo → ElevenLabs V3
- 配乐/语音生成:Mureka / Lyria2 → Minimax
5. 聚合平台 API 配置
| 平台 | Base URL | 环境变量 |
|---|---|---|
| Poe | https://api.poe.com/v1 |
POE_API_KEY |
| OpenRouter | https://openrouter.ai/api/v1 |
OPENROUTER_API_KEY |
| SiliconFlow | https://api.siliconflow.cn/v1 |
SILICONFLOW_API_KEY |
| Zenmux | https://api.zenmux.ai/v1 |
ZENMUX_API_KEY |
5.1 原生 Provider API
| Provider | Base URL | 环境变量 |
|---|---|---|
| OpenAI | https://api.openai.com/v1 |
OPENAI_API_KEY |
| Anthropic | https://api.anthropic.com |
ANTHROPIC_API_KEY |
https://generativelanguage.googleapis.com/v1beta |
GOOGLE_API_KEY |
|
| DeepSeek | https://api.deepseek.com/v1 |
DEEPSEEK_API_KEY |
| 智谱 | https://open.bigmodel.cn/api/paas/v4 |
ZHIPU_API_KEY |
| Moonshot | https://api.moonshot.cn/v1 |
MOONSHOT_API_KEY |
6. 模型ID转换映射
6.1 Poe 平台模型映射
const POE_MODEL_MAP = {
// GPT 系列
'gpt-4o': 'GPT-4o',
'gpt-4o-mini': 'GPT-4o-Mini',
'o1': 'o1',
'o3': 'o3',
// Claude 系列
'claude-opus-4.5': 'Claude-Opus-4.1',
'claude-sonnet-4.5': 'Claude-Sonnet-4',
'claude-3-5-haiku': 'Claude-3.5-Haiku',
// Gemini 系列 (NanoBanana)
'gemini-3-pro': 'NanoBanana-Pro',
'gemini-2.5-pro': 'Gemini-2.5-Pro',
'gemini-2.5-flash': 'Gemini-2.5-Flash',
// DeepSeek 系列
'deepseek-v3': 'DeepSeek-V3',
'deepseek-r1': 'DeepSeek-R1',
};
TODO: 补齐 GPT-5.2 / GPT-5.2 Pro / GPT o3 Pro / Flux 2 / Recraft V3 / Ideogram V3 等新模型映射(以聚合平台实际 ID 为准)
6.2 OpenRouter 模型映射
// 格式: provider/model-name
'gemini-3-pro' → 'google/gemini-3-pro-preview'
'claude-sonnet-4.5' → 'anthropic/claude-3-5-sonnet-20241022'
'gpt-4o' → 'openai/gpt-4o'
'deepseek-v3' → 'deepseek/deepseek-chat'
6.3 Google AI Studio 模型映射
const GOOGLE_MODEL_MAP = {
'gemini-3-pro': 'gemini-2.5-pro', // 3.x 映射到 2.5
'gemini-3-flash': 'gemini-2.5-flash',
'gemini-2.5-pro': 'gemini-2.5-pro',
'gemini-2.5-flash': 'gemini-2.5-flash',
'gemini-2.0-flash': 'gemini-2.0-flash',
};
7. LLM 模型清单 (SOTA 2026-01)
7.1 旗舰模型
| 模型 | Provider | 上下文 | 价格($/M tokens) | 特点 |
|---|---|---|---|---|
| Gemini 3 Pro | 1M | $2/$12 | LMArena榜首,PhD级推理 | |
| GPT-5.2 Pro | OpenAI | 400K | TBD | 最强通用,Agent首选 |
| Claude Opus 4.5 | Anthropic | 200K | $15/$75 | 最强Claude,深度分析 |
7.2 主力/性价比模型
| 模型 | Provider | 上下文 | 价格($/M tokens) | 特点 |
|---|---|---|---|---|
| DeepSeek V3 | DeepSeek | 128K | $0.14/$0.28 | 中文SOTA,超低成本 |
| Gemini 3 Flash | 1M | $0.075/$0.30 | 极速,超高性价比 | |
| GPT-5.2 | OpenAI | 400K | TBD | 主力模型,平衡质量与成本 |
| GPT-5.2 Nano | OpenAI | 400K | TBD | 极致性价比,实时应用 |
| Claude Haiku 4.5 | Anthropic | 200K | $0.25/$1.25 | 极速响应,简单任务 |
7.3 代码专精模型
| 模型 | Provider | 特点 |
|---|---|---|
| Claude Sonnet 4.5 | Anthropic | SWE-bench 72.7% |
| GPT-5.2 Codex | OpenAI | 编程SOTA |
| DeepSeek Coder V3 | DeepSeek | 338种语言 |
7.4 推理模型
| 模型 | Provider | 特点 |
|---|---|---|
| o3 Pro | OpenAI | AGI级别,ARC-AGI突破 |
| o4-mini | OpenAI | 高性价比推理 |
| DeepSeek R1 | DeepSeek | 数学SOTA,开源 |
| GLM-Z1 | 智谱 | 中文推理SOTA |
8. 其他模型类别
8.1 Vision/OCR 模型
| 模型 | Provider | 特点 | 价格 |
|---|---|---|---|
| Gemini 3 Pro Image | 4K超高清,14图合成 | $0.02/张 | |
| DeepSeek-OCR | DeepSeek | OCR SOTA,97%准确率 | $0.0001/张 |
| GPT-5.2 Vision | OpenAI | 最强视觉理解 | $0.025/张 |
| Claude 4.5 Vision | Anthropic | 文档理解SOTA | $0.06/张 |
8.2 图片生成模型 (Image Generation)
| 模型 | Provider | 支持4K | 支持中文文字 | 风格 | 说明 |
|---|---|---|---|---|---|
| nano-banana-pro | Poe (Gemini 3) | ✅ | ✅ | photorealistic | 首选,支持中文渲染 |
| GPT-Image-1.5 | Poe (OpenAI) | ✅ | ✅ | photorealistic | OpenAI 最新图像模型 |
| nano-banana | Poe (Gemini 3) | ❌ | ✅ | photorealistic | 标准版,速度快 |
| seedream-4.5 | Poe | ✅ | ❌ | photorealistic | 高质量图像 |
| seedream-4.0 | Poe | ✅ | ❌ | photorealistic | 稳定版 |
| FLUX-2-Pro | Poe | ✅ | ❌ | artistic | 高质感风格 |
| FLUX-2 | Poe | ✅ | ❌ | artistic | 风格多样 |
| recraft-v3 | Poe | ✅ | ✅ | artistic | 文字/矢量风格 |
| ideogram-v3 | Poe | ✅ | ✅ | artistic | 文字排版强 |
| Kling-O1 | Poe (快手) | ✅ | ❌ | photorealistic | 快手可灵 O1 |
| kling-2.6 | Poe (快手) | ✅ | ❌ | photorealistic | 快手可灵 2.6 |
| wan-2.6 | Poe | ✅ | ❌ | photorealistic | Wan 2.6 |
| DALL-E-3 | Poe (OpenAI) | ✅ | ❌ | photorealistic | OpenAI DALL-E |
8.3 Embedding 模型
| 模型 | Provider | 特点 | 价格($/M tokens) |
|---|---|---|---|
| Voyage-3-large | Voyage AI | 8域SOTA | $0.12 |
| Voyage-3-lite | Voyage AI | 性价比SOTA | $0.02 |
| text-embedding-3-large | OpenAI | 稳定可靠 | $0.13 |
8.4 Audio 模型
| 模型 | Provider | 类型 | 特点 | 价格 |
|---|---|---|---|---|
| Deepgram Nova-3 | Deepgram | STT | 比Whisper准36% | $0.0043/分钟 |
| Whisper v3 | OpenAI | STT | 开源,多语言 | $0.006/分钟 |
| Gemini 2.5 Pro TTS | TTS | 语音自然度最佳 | TBD | |
| Gemini 2.5 Flash TTS | TTS | 低时延 | TBD | |
| ElevenLabs V3 | ElevenLabs | TTS | 50语言,情感SOTA | $0.20/分钟 |
| ElevenLabs Turbo V3 | ElevenLabs | TTS | 超低延迟,实时对话 | $0.08/分钟 |
| Gemini Audio | TTS | 多语种/多模态 | TBD | |
| Minimax Audio | MiniMax | TTS | 中文自然度 | TBD |
| Mureka | Mureka | Music | 配乐生成 | TBD |
| Lyria2 | Music | 高质量音乐生成 | TBD |
8.5 Video 模型
| 模型 | Provider | 时长/分辨率 | 特点 |
|---|---|---|---|
| Veo 3.1 | 4s/720-1080p | 电影级画质 | |
| Sora 2 | OpenAI | 4s/720-1080p | 高保真生成 |
| Kling 2.6 | 快手 | 5s/多分辨率 | 运动与人物表现强 |
| Seedance Pro | 字节 | 5s/多分辨率 | 动作/舞蹈 |
| Hailuo-2.3 | MiniMax | 6s/多分辨率 | 中文场景适配 |
| PixVerse V5 | PixVerse | 5s/多分辨率 | 风格化 |
| Vidu Q2 | Vidu | 5s/多分辨率 | 速度快 |
| Wan 2.6 | Wan | 5s/多分辨率 | 稳定输出 |
8.6 Reranker 模型
| 模型 | Provider | 特点 | 价格($/M tokens) |
|---|---|---|---|
| Cohere Rerank 3 | Cohere | RAG优化SOTA | $2.00 |
| BGE-reranker-large | BAAI | 开源,可自托管 | 免费 |
9. 调用流程示例
// 1. 用户发起请求
const result = await smartRouter.chatCompletion({
model: 'claude-sonnet-4.5',
messages: [{ role: 'user', content: 'Hello' }],
});
// 2. SmartRouter 处理流程
// 2.1 识别模型系列: claude
// 2.2 获取路由配置: { fallbackChain: ['poe', 'openrouter', 'anthropic'] }
// 2.3 检查已配置的 Provider
// 3. 按顺序尝试
// 尝试 Poe: 转换 claude-sonnet-4.5 → Claude-Sonnet-4
// 如果失败 → 尝试 OpenRouter: anthropic/claude-3-5-sonnet-20241022
// 如果失败 → 尝试 Anthropic: claude-3-5-sonnet-20241022
// 4. 返回结果
console.log(result.actualProvider); // 实际使用的 provider
console.log(result.attemptedProviders); // 尝试过的 providers
console.log(result.errors); // 失败的 providers 及错误信息
10. 环境变量配置
# 聚合平台 (推荐配置)
POE_API_KEY=xxx
OPENROUTER_API_KEY=xxx
SILICONFLOW_API_KEY=xxx
ZENMUX_API_KEY=xxx
# 原生 Provider (可选,作为保底)
OPENAI_API_KEY=xxx
ANTHROPIC_API_KEY=xxx
GOOGLE_API_KEY=xxx # 或使用内置的 6 账号轮询
DEEPSEEK_API_KEY=xxx
ZHIPU_API_KEY=xxx
MOONSHOT_API_KEY=xxx
# 特殊服务
VOYAGE_API_KEY=xxx # Embedding
DEEPGRAM_API_KEY=xxx # STT
ELEVENLABS_API_KEY=xxx # TTS
COHERE_API_KEY=xxx # Reranker
11. 核心文件索引
| 文件 | 职责 |
|---|---|
lib/model-config.ts |
场景配置管理器 |
lib/model-providers.ts |
模型定义库 (SOTA列表) |
lib/llm/model-router.ts |
路由链定义 + 模型ID转换 |
lib/llm/smart-router.ts |
智能路由器 (自动 fallback) |
lib/llm/llm-service.ts |
统一 LLM 服务封装 |
lib/llm/registry.ts |
Provider 注册表 |
lib/llm/providers/*.ts |
各 Provider 实现 |
lib/services/image-generation.ts |
图片生成服务 (模型优先级 + 路由逻辑) |
11.1 图片生成关键配置
| 配置项 | 位置 | 说明 |
|---|---|---|
IMAGE_MODEL_PRIORITY |
image-generation.ts:232 |
各 Provider 的模型优先级数组 |
POE_IMAGE_MODELS |
image-generation.ts:276 |
Poe 平台模型详细配置 |
getAllowedModelsForScenario() |
image-generation.ts:414 |
场景→模型列表的路由函数 |
generateWithGoogle() |
image-generation.ts:670 |
Google API 图片生成实现 |
generateWithPoe() |
image-generation.ts:880 |
Poe API 图片生成实现 |
猪哥云(四川)网络科技有限公司 | 合规网 www.hegui.com 猪哥云-数据产品部-Maurice | maurice_wen@proton.me 2025 猪哥云-灵阙企业级智能体平台