多模态模型编排:优化后的配置表

版本:2025-12-31(优化版) · 目标:更像“真 SOTA”的路由 + 默认/降级链路
✅ 重点优化:Seedream 前移 · 智能体 fallback 升档 · 视频按口型/音频分流 ⚙️ 建议配套:质量闸门(OCR/一致性/口型) + 自动重试

全局路由规则(建议写进 Router)

  1. 先判别任务标签image_with_text / image_no_text / video / agent_or_tool / text / tts / music
  2. 再判别难度/约束(示例):
    图片:dense_text / layout / multi-image-consistency / heavy-edit / photoreal / illustration 智能体:tool_depth / long-horizon / strict-safety / multi-step 视频:needs_native_audio / needs_cn_lip_sync / ref_image_or_first_last_frame / long_duration
  3. 质量闸门 + 自动重试(让系统更“真 SOTA”):
    • 有文字图片:OCR/字符覆盖率/错字率不过关 ⇒ 自动切换下一个模型重试
    • 编辑任务:主体一致性/区域保持度不过关 ⇒ 重试或换模型
    • 视频:音画同步/口型置信度不过关 ⇒ 路由到更擅长该项的模型

提示:相比“静态 fallback 顺序”,动态质量回路通常更显著提升最终体验。

A) 所有图片处理与生成(有文字)

优先级 模型 适用场景 备注
默认 nanobanana pro(gemini 3 image pro) 通用:海报/界面/标题图/带字编辑 作为主力 OK
fallback 1 GPT-Image-1.5(openai) 文字精确度仍不稳、或需要更强遵循 常见救火位
fallback 2 seedream 4.5 密集排版/多行小字/多图一致性编辑 建议前移(高文字命中率)
fallback 3 seedream 4.0 4.5 不可用或稳定性/成本考虑 稳健补位
fallback 4 nanobanana(非 pro) 成本兜底 不建议在高文字要求时靠前
建议加:文字质量回路
生成后跑 OCR → 评估错字率/漏字率/行距拥挤 → 不合格自动切换下一个模型重试。

B) 所有图片处理与生成(无文字)

优先级 模型 适用场景 备注
默认 nanobanana pro(gemini 3 image pro) 通用生成/编辑主力 OK
fallback 1 GPT-Image-1.5(openai) 复杂编辑、稳定救火、指令遵循 OK
fallback 2 seedream 4.5 一致性、风格统一、多图编辑 建议靠前
fallback 3 seedream 4.0 稳定补位
fallback 4 nanobanana(非 pro) 低成本/快速
fallback 5 kling-2.6 偏风格化/特定视觉倾向 长尾补齐
fallback 6 kling o1 兜底
fallback 7 wan 2.6 兜底

说明:这里把 Seedream 4.5/4.0 前移,优先覆盖“高一致性/高质量纯图与编辑”。

C) 所有智能体调度 / 工具调用 / 规划执行

核心思路:失败时优先“稳”(Thinking/Pro),而不是只追“快”(Instant)

路由条件 默认 fallback 1 fallback 2
复杂多步 / tool-heavy / 长链路 claude-opus-4.5 gpt-5.2-thinking(或 pro) gpt-5.2-instant
简单短任务 / 轻工具 / 低风险 gpt-5.2-instant(可直路由) claude-opus-4.5 gpt-5.2-thinking
建议加:升档逻辑
Instant 先探测 → 触发阈值(步骤数、工具数、失败率、token 预算)→ 升到 Opus / GPT-5.2-thinking。

D) 所有视频生成任务(按“原生音频/中文口型”分流)

路由条件 默认 fallback 1 fallback 2 fallback 3
要原生音频 + 高保真画质(通用) veo 3.1(gemini) sora-2-pro(openai) seedance-1.5-pro kling-omni / kling-2.6-pro
明确需要中文口型 / 音画强同步(口播、对话) seedance-1.5-pro veo 3.1 sora-2-pro kling-omni / kling-2.6-pro
图生视频 / 参考帧驱动强 veo 3.1 kling-omni sora-2-pro seedance-1.5-pro

说明:把 Seedance 从“长尾”提升为“口型/音画同步”的主路由之一。

E) 所有文字解析 / 文本处理任务

通用解析/总结/抽取/改写

优先级 模型 备注
默认 gemini-3-flash 性价比主力
fallback claude-haiku-4.5 高吞吐补位

难推理/复杂规划/严格一致性(建议加“升档分流”)

优先级 模型 备注
先试 gemini-3-flash 快速判断是否需要升档
fallback 1 claude-opus-4.5 复杂规划/工具链强
fallback 2 gpt-5.2-thinking 推理与鲁棒性补位

F) 所有音频处理任务(TTS)

优先级 模型 备注
默认 gemini-2.5-pro-tts 质量优先
fallback 1 gemini-2.5-flash-tts 延迟/成本优先
fallback 2 elevenlabs-v3 表现力/风格兜底

G) 所有音乐处理任务

优先级 模型 备注
默认 elevenlabs-music 主力
fallback hailuo-music-v1.5 兜底

额外加分项(让它更像“真 SOTA”)

  • 动态重试策略:失败不只换模型,也换提示模板(尤其海报/字幕/排版类)
  • 预算分层:先跑低成本探测(instant/flash),触发阈值再升档(opus/thinking/pro)
  • 模型健康度:按失败率/超时率实时调整 fallback 顺序(非常工程向、非常有效)
可选:路由打标字段(建议)
task_type: image_with_text | image_no_text | video | agent_or_tool | text | tts | music constraints: dense_text: true/false multi_image_consistency: true/false heavy_edit: true/false needs_native_audio: true/false needs_cn_lip_sync: true/false budgets: max_retries: 2 timeout_ms: 30000 cost_tier: low | mid | high quality_gates: ocr_pass: true/false identity_consistency: score(0-1) lip_sync_score: score(0-1)
这份 HTML 是“配置表 + 路由原则”的可视化文档版本。你要是希望我把它再输出成 Router 的 YAML/JSON(可直接接入你调度系统),告诉我你现在的规则表达式格式即可。