多模态模型编排:优化后的配置表(2025-12-31)
原创
灵阙教研团队
S 精选 进阶 |
约 5 分钟阅读
更新于 2025-12-31 AI 导读
多模态模型编排:优化后的配置表 版本:2025-12-31(优化版) · 目标:更像“真 SOTA”的路由 + 默认/降级链路 全局路由规则 图片(有文字) 图片(无文字) 智能体/工具调用 视频生成 文本处理 音频/TTS 音乐 加分项 ✅ 重点优化:Seedream 前移 · 智能体 fallback 升档 · 视频按口型/音频分流 ⚙️ 建议配套:质量闸门(OCR/一致性/口型) +...
多模态模型编排:优化后的配置表
✅ 重点优化:Seedream 前移 · 智能体 fallback 升档 · 视频按口型/音频分流
⚙️ 建议配套:质量闸门(OCR/一致性/口型) + 自动重试
全局路由规则(建议写进 Router)
- 先判别任务标签: image_with_text / image_no_text / video / agent_or_tool / text / tts / music
-
再判别难度/约束(示例):
图片:dense_text / layout / multi-image-consistency / heavy-edit / photoreal / illustration 智能体:tool_depth / long-horizon / strict-safety / multi-step 视频:needs_native_audio / needs_cn_lip_sync / ref_image_or_first_last_frame / long_duration
-
质量闸门 + 自动重试(让系统更“真 SOTA”):
- 有文字图片:OCR/字符覆盖率/错字率不过关 ⇒ 自动切换下一个模型重试
- 编辑任务:主体一致性/区域保持度不过关 ⇒ 重试或换模型
- 视频:音画同步/口型置信度不过关 ⇒ 路由到更擅长该项的模型
提示:相比“静态 fallback 顺序”,动态质量回路通常更显著提升最终体验。
A) 所有图片处理与生成(有文字)
| 优先级 | 模型 | 适用场景 | 备注 |
|---|---|---|---|
| 默认 | nanobanana pro(gemini 3 image pro) | 通用:海报/界面/标题图/带字编辑 | 作为主力 OK |
| fallback 1 | GPT-Image-1.5(openai) | 文字精确度仍不稳、或需要更强遵循 | 常见救火位 |
| fallback 2 | seedream 4.5 | 密集排版/多行小字/多图一致性编辑 | 建议前移(高文字命中率) |
| fallback 3 | seedream 4.0 | 4.5 不可用或稳定性/成本考虑 | 稳健补位 |
| fallback 4 | nanobanana(非 pro) | 成本兜底 | 不建议在高文字要求时靠前 |
建议加:文字质量回路
生成后跑 OCR → 评估错字率/漏字率/行距拥挤 → 不合格自动切换下一个模型重试。
B) 所有图片处理与生成(无文字)
| 优先级 | 模型 | 适用场景 | 备注 |
|---|---|---|---|
| 默认 | nanobanana pro(gemini 3 image pro) | 通用生成/编辑主力 | OK |
| fallback 1 | GPT-Image-1.5(openai) | 复杂编辑、稳定救火、指令遵循 | OK |
| fallback 2 | seedream 4.5 | 一致性、风格统一、多图编辑 | 建议靠前 |
| fallback 3 | seedream 4.0 | 稳定补位 | — |
| fallback 4 | nanobanana(非 pro) | 低成本/快速 | — |
| fallback 5 | kling-2.6 | 偏风格化/特定视觉倾向 | 长尾补齐 |
| fallback 6 | kling o1 | 兜底 | — |
| fallback 7 | wan 2.6 | 兜底 | — |
说明:这里把 Seedream 4.5/4.0 前移,优先覆盖“高一致性/高质量纯图与编辑”。
C) 所有智能体调度 / 工具调用 / 规划执行
核心思路:失败时优先“稳”(Thinking/Pro),而不是只追“快”(Instant)。
| 路由条件 | 默认 | fallback 1 | fallback 2 |
|---|---|---|---|
| 复杂多步 / tool-heavy / 长链路 | claude-opus-4.5 | gpt-5.2-thinking(或 pro) | gpt-5.2-instant |
| 简单短任务 / 轻工具 / 低风险 | gpt-5.2-instant(可直路由) | claude-opus-4.5 | gpt-5.2-thinking |
建议加:升档逻辑
Instant 先探测 → 触发阈值(步骤数、工具数、失败率、token 预算)→ 升到 Opus / GPT-5.2-thinking。
D) 所有视频生成任务(按“原生音频/中文口型”分流)
| 路由条件 | 默认 | fallback 1 | fallback 2 | fallback 3 |
|---|---|---|---|---|
| 要原生音频 + 高保真画质(通用) | veo 3.1(gemini) | sora-2-pro(openai) | seedance-1.5-pro | kling-omni / kling-2.6-pro |
| 明确需要中文口型 / 音画强同步(口播、对话) | seedance-1.5-pro | veo 3.1 | sora-2-pro | kling-omni / kling-2.6-pro |
| 图生视频 / 参考帧驱动强 | veo 3.1 | kling-omni | sora-2-pro | seedance-1.5-pro |
说明:把 Seedance 从“长尾”提升为“口型/音画同步”的主路由之一。
E) 所有文字解析 / 文本处理任务
通用解析/总结/抽取/改写
| 优先级 | 模型 | 备注 |
|---|---|---|
| 默认 | gemini-3-flash | 性价比主力 |
| fallback | claude-haiku-4.5 | 高吞吐补位 |
难推理/复杂规划/严格一致性(建议加“升档分流”)
| 优先级 | 模型 | 备注 |
|---|---|---|
| 先试 | gemini-3-flash | 快速判断是否需要升档 |
| fallback 1 | claude-opus-4.5 | 复杂规划/工具链强 |
| fallback 2 | gpt-5.2-thinking | 推理与鲁棒性补位 |
F) 所有音频处理任务(TTS)
| 优先级 | 模型 | 备注 |
|---|---|---|
| 默认 | gemini-2.5-pro-tts | 质量优先 |
| fallback 1 | gemini-2.5-flash-tts | 延迟/成本优先 |
| fallback 2 | elevenlabs-v3 | 表现力/风格兜底 |
G) 所有音乐处理任务
| 优先级 | 模型 | 备注 |
|---|---|---|
| 默认 | elevenlabs-music | 主力 |
| fallback | hailuo-music-v1.5 | 兜底 |
额外加分项(让它更像“真 SOTA”)
- 动态重试策略:失败不只换模型,也换提示模板(尤其海报/字幕/排版类)
- 预算分层:先跑低成本探测(instant/flash),触发阈值再升档(opus/thinking/pro)
- 模型健康度:按失败率/超时率实时调整 fallback 顺序(非常工程向、非常有效)
可选:路由打标字段(建议)
task_type: image_with_text | image_no_text | video | agent_or_tool | text | tts | music
constraints:
dense_text: true/false
multi_image_consistency: true/false
heavy_edit: true/false
needs_native_audio: true/false
needs_cn_lip_sync: true/false
budgets:
max_retries: 2
timeout_ms: 30000
cost_tier: low | mid | high
quality_gates:
ocr_pass: true/false
identity_consistency: score(0-1)
lip_sync_score: score(0-1)