用途:智能体平台「推荐模型」接入参考
SOTA 快照:2025-12-31
基于:套餐截图(Pro/Ultimate) + 公开榜单

智能体平台:推荐模型接入参考(截图设计拆解 + SOTA 榜)

目标:把“模型名单”抽象为可复用的产品分层、路由策略、计费/权益,并给出一套多供应商 SOTA 模型池作为你平台的默认接入参考。

1) 截图设计拆解:Pro vs Ultimate(两条“产品路径”)

Pro:偏“对话 / Agent 总控”

价格(截图)
$199.99/月
原价 $249.99(20% 折扣)
积分(截图)
125,000/月
统一内部货币
重点权益
聊天 / 图片“无限”
限定在智能体体验内
  • 多供应商旗舰池:Claude / Gemini / GPT / Grok … 同时存在,营销“最强”,工程上“冗余”。
  • 无限带期限:截图标注到 2026-12-31,本质是成本上限与商业调价窗口。
  • 按模态扩展:还包含视频/音频最新模型访问、以及 1TB 存储(Drive)。

Ultimate:偏“创作 / 生成”

价格(截图)
$99/月
年付首年 $1,188;续费 $1,992
积分(截图)
27,000/月
首购当月双倍
重点权益
365 天“无限畅享”
主要覆盖图像/视频爆款
  • 并发(10 任务):生成类用户更需要并行出图/出视频。
  • 日刷新积分:每天给用户“可用额度”,更利于留存。
  • 可商用:把授权/合规作为权益售卖,覆盖工作室/B2B。

对你平台的启发:不要把“接入模型”当作单一维度的“更多=更好”,而要把模型池绑定到用户意图路径Agent 路径(对话、工具调用、结构化输出) vs 创作路径(图像/视频/语音生成、并发、版权条款)。

2) 可复制的产品策略:把模型池做成「分层 + 路由 + 权益」

你真正要复用的不是“模型名单”,而是下面三件套: 分层(Tier)路由(Router)权益/计费(Entitlement & Billing)

2.1 分层(建议)

层级 定位 适用任务 建议模型数量
Flagship 质量优先、复杂推理、工具调用稳定 Agent 总控、复杂分析、关键生产任务 2–3(跨供应商冗余)
Balanced 默认款:质量/速度/成本平衡 日常聊天、轻量工具链、知识问答 2(含便宜备选)
Fast 低延迟、高 QPS 摘要、客服、实时协作、检索增强 1–2
Specialists 按模态/任务引入“非 LLM”SOTA 文生图、图像编辑、文生视频、STT/TTS 每个模态 2–4

2.2 路由(建议)

  • 先按模态分池(chat / image_gen / image_edit / video / audio…),别让 LLM 当“万能锤子”。
  • 再按 SLA 选层:质量优先 → flagship;低延迟 → fast;默认 → balanced。
  • 同层动态排序:健康度(成功率/超时率)、拥塞、单位成本、用户偏好。
  • 内置 fallback:失败自动切换到第二供应商,保证体验与稳定。

2.3 权益(建议)——“无限”要做成可控形态

  • 无限 = 受控体验 只在你定义的“智能体模板 / 工作流”里无限(可缓存、可限流、可追踪)。
  • 无限 = 公平使用(FUP) 定义合理阈值(请求/分钟、并发、日量),超出回落到积分计费。
  • 无限 = 路由权在平台 允许平台在同层级模型间切换(拥塞/降本/灰度)。

3) 结合 SOTA 榜:推荐模型池(按模态)

下面表格来自公开榜单的“全局排行榜”快照(2025-12-31)。榜单会变化,你应当把它当作候选池, 再用你自己的线上指标(成功率、平均延迟、用户满意度、单位成本)决定默认路由。

3.1 通用 LLM(Chat/Agent):Chatbot Arena+(OpenLM.ai)Top 10

# 模型 Arena Elo 建议接入定位
1Gemini-3-Pro1492旗舰默认 / 多模态总控(适合作为 Agent orchestrator)
2Grok-4.1-Thinking1482难题/推理备用旗舰(偏“深思”档)
3Gemini-3-Flash1470Balanced 默认(质量强 + 延迟更友好)
4Claude Opus 4.5 (thinking-32k)1466高质量写作/推理(可做旗舰文本产出)
5GPT-5.2-high1465生产级旗舰(工具调用/结构化输出的主力候选)
6GPT-5.1-high1464旗舰备选(用于稳定性/成本策略切换)
7GPT-5.21464同族更“省”的档位(与 high 形成路由组合)
8Grok-4.11463快且强的备用旗舰(并发场景可用)
9Claude Opus 4.51462Opus 路径的更低延迟选择
10Gemini-2.5-Pro1460成熟稳健的旗舰备选(多语言/生态稳定)

数据源:openlm.ai Chatbot Arena+(榜单会变化)

3.2 文生图(Text-to-Image):Artificial Analysis Top 10(ELO)

# 模型 ELO API 价格(/1000 张) 建议定位
1OpenAI GPT Image 1.5 (high)1,255$133默认旗舰(通用/写实)
2Google Nano Banana Pro (Gemini 3 Pro Image)1,222$134第二旗舰(与 GPT Image 形成双路由)
3Black Forest Labs FLUX.2 [max]1,210$70高质感/细节档
4Black Forest Labs FLUX.2 [pro]1,200$30平衡默认(更适合批量)
5ByteDance Seed Seedream 4.01,192$30商业审美稳定
6Black Forest Labs FLUX.2 [flex]1,185$60弹性档(按成本/速度策略切换)
7ByteDance Seed Seedream 4.51,170$40追新/补位旗舰
8Google Nano Banana (Gemini 2.5 Flash Image)1,163$39更快(交互式生成)
9Google Imagen 4 Ultra Preview 06061,163$60写实稳定备选
10ImagineArt 1.5 Preview1,159$30补充风格多样性

数据源:artificialanalysis.ai 文生图榜单(ELO/价格)

3.3 图片编辑(Image Editing):Artificial Analysis Top 10(ELO)

# 模型 ELO API 价格(/1000 张) 建议定位
1OpenAI GPT Image 1.5 (high)1,263$133默认编辑旗舰(多步编辑/文本改图)
2Google Nano Banana Pro (Gemini 3 Pro Image)1,254$134第二旗舰(成本/风格对冲)
3Black Forest Labs FLUX.2 [max]1,204$140高端质感编辑
4ByteDance Seed Seedream 4.51,202$40内容生产型编辑
5ByteDance Seed Seedream 4.01,188$30稳定默认
6Google Nano Banana (Gemini 2.5 Flash Image)1,185$39更快(交互式编辑)
7Black Forest Labs FLUX.2 [pro]1,174$45平衡档
8Reve V1 (December)1,171$40创意/风格编辑备选
9Black Forest Labs FLUX.2 [flex]1,165$120策略性补位(按供应/速率)
10Pruna AI P-Image-Edit1,141$10便宜备选(批量/低风险任务)

数据源:artificialanalysis.ai 图片编辑榜单(ELO/价格)

3.4 文生视频(Text-to-Video):Artificial Analysis Top 10(ELO)

# 模型 ELO API 价格 建议定位
1Runway Gen-4.51,239Coming soon高端商业视频(注意 API 可用性)
2Google Veo 3 (No Audio)1,224$12/min旗舰默认视频生成器
3Kling 2.5 Turbo 1080p1,221Coming soon动作/镜头语言强(短视频生产线)
4Google Veo 3.1 Preview (No Audio)1,219$12/min追新/风格变化
5Google Veo 3.1 Fast Preview (No Audio)1,217$9/min更快(交互式生成)
6Luma Labs Ray 31,209Coming soon补充风格(第二梯队)
7OpenAI Sora 2 Pro (No Audio)1,203$30/min旗舰备选(长镜头/高质量)
8OpenAI Sora 2 (December, No Audio)1,200$6/min成本/质量平衡(默认档)
9MiniMax Hailuo 02 Standard1,197$2.8/min性价比强(批量)
10MiniMax Hailuo 2.31,182$2.8/min升级版(追新)

数据源:artificialanalysis.ai 文生视频榜单(ELO/价格)

3.5 语音:STT(ASR)与 TTS(Speech Arena)

STT(Speech-to-Text):建议做“两条路线”

模型/提供方 WER(越低越好) 速度因子(中位数) 价格(USD / 1000 分钟) 建议定位
Google Chirp 211.6%17.8$16.00准确率优先(高价值转写)
Speechmatics Enhanced14.4%24.7$6.70准确+稳健(生产备选)
AssemblyAI Universal14.5%84.4$2.50性价比默认
OpenAI Whisper Large v215.8%31.1$6.00生态成熟(通用备选)
Deepgram Nova-318.3%517.6$4.30吞吐优先(大规模实时)
Google Gemini 2.0 Flash Lite16.6%59.9$0.19极低成本(低风险/草稿)

数据源:artificialanalysis.ai Speech-to-Text(WER/速度/价格)

TTS(Text-to-Speech):Artificial Analysis Speech Arena Top 10(ELO)

# 模型 ELO 价格(USD / 1M chars) 建议定位
1Inworld TTS 1 Max1,172$10旗舰音质(知识分享/助手)
2MiniMax Speech 2.6 HD1,155$100高端音质(对质感敏感)
3MiniMax Speech 2.6 Turbo1,148$60更快的高质量
4MiniMax Speech-02-HD1,123$100高质量备选
5MiniMax Speech-02-Turbo1,120$60平衡备选
6Inworld TTS 11,112$5更便宜的高质量
7ElevenLabs Multilingual v21,110$206多语种生态(更贵)
8OpenAI TTS-11,108$15稳定通用
9ElevenLabs v31,102$206高质量但成本高
10ElevenLabs Turbo v2.51,100$103更快的 ElevenLabs 档位

数据源:artificialanalysis.ai Text-to-Speech Leaderboard(Speech Arena)

建议的“默认路由”组合(你可以直接抄):

  • LLM 旗舰:Gemini-3-Pro + GPT-5.2-high(主) + Claude Opus 4.5 (thinking)(备)
  • LLM 默认:Gemini-3-Flash(Balanced) + GPT-5.2(更省)
  • 文生图:GPT Image 1.5 (high)(主) + Nano Banana Pro(备) + FLUX.2 [pro](批量)
  • 图像编辑:GPT Image 1.5 (high)(主) + Seedream 4.0/4.5(生产)
  • 视频:Veo 3(主) + Sora 2(备) + Hailuo(批量/便宜)
  • 语音:STT(Chirp2/AssemblyAI)双路线 + TTS(Inworld/OpenAI)双路线

4) 接入架构:模型注册表(Registry)& 路由器(Router)

多供应商接入的关键是“统一抽象”:把不同 API 的差异收敛到一个内部接口,并且把成本/限流/能力写进模型元数据

4.1 模型注册表(推荐:配置中心 / DB)

{
  "id": "openai:gpt-5.2-high",
  "provider": "openai",
  "tier": "flagship",
  "modality": ["text", "vision"],
  "capabilities": {
    "tool_calling": true,
    "json_mode": true,
    "long_context": true
  },
  "limits": {
    "max_context_tokens": 200000,
    "rpm": 60,
    "tpm": 200000
  },
  "economics": {
    "billing_unit": "points",
    "points_multiplier": 1.0
  },
  "entitlement": {
    "allowed_plans": ["pro", "enterprise"],
    "unlimited_in_workflow": ["agent_chat"]  // 仅在受控工作流内“无限”
  },
  "routing": {
    "default_for": ["agent_orchestrator", "complex_reasoning"],
    "fallbacks": ["google:gemini-3-pro", "anthropic:claude-opus-4.5-thinking"]
  }
}

4.2 路由器(Router)伪代码:按任务 + SLA + 成本自动选型

// TypeScript 风格伪代码
type Task = {
  type: "chat" | "code" | "vision" | "image_gen" | "image_edit" | "video_gen" | "stt" | "tts";
  needTools?: boolean;
  needJson?: boolean;
  quality?: "low" | "med" | "high";
  latencyTargetMs?: number;
  budgetPoints?: number;
  plan?: "free" | "creator" | "pro" | "enterprise";
};

function route(task: Task) {
  const pool = pickPool(task.type);

  // 权益过滤:比如“无限”只允许命中某些模型/工作流
  const allowed = filterByPlan(pool, task.plan);

  // 分层:先决定 tier
  const tier = chooseTier(task.quality, task.latencyTargetMs);

  // 排序:健康度/成本/拥塞/能力匹配
  const ranked = rank(allowed, {
    tier,
    needTools: task.needTools,
    needJson: task.needJson
  });

  return {
    primary: ranked[0],
    fallbacks: ranked.slice(1, 4)
  };
}

4.3 观测(必须做)

  • 每次调用都记录:模型、prompt tokens、output tokens、延迟、失败原因、重试次数、成本。
  • 分供应商健康度:超时率/5xx/限流、地区性波动、峰值拥塞。
  • 离线回归集:用你自己的 20–50 个真实任务作为“内部 SOTA”,每周自动跑。

5) 计费:积分(Points)+ “无限”落地

5.1 为什么截图里的平台爱用“积分”

  • 对外统一:用户只理解“积分”,不用理解 token/秒/分钟/图像定价。
  • 对内可调:不同供应商成本差异巨大,积分倍率可以动态调整(不改用户套餐)。
  • 便于做“无限”:把某些模型在某些工作流内设为 points_multiplier = 0,但仍可限流与风控。

5.2 建议的“积分倍率”策略(可直接套用)

模型/层级 倍率(示例) 解释
LLM Flagship(GPT/Claude/Gemini 顶配)1.0–2.0×高价值任务;给足预算但避免滥用
LLM Balanced(Flash/中档)0.4–0.9×默认路由;用它覆盖 70% 日常请求
LLM Fast(mini/haiku 等)0.2–0.5×高 QPS;对质量较宽容的任务
图片旗舰(GPT Image high / Nano Banana Pro)1.0–2.0×少量高端出图;结合“无限包”更好卖
视频旗舰(Veo/Sora 等)2.0× 起成本高,必须有强限流与预估
“无限”工作流内但要有 FUP、并发限制、输出上限与风控

5.3 “无限”落地要点

  • 明确边界:无限只覆盖你可控的“智能体产品形态”(模板、工具链、缓存、输入限制)。
  • 预算守门:对重度请求先用便宜模型做“判别/提纲/检索”,必要时再升级旗舰。
  • 防滥用:按用户、按 IP、按工作区做速率限制;对异常模式(批量脚本)降级到积分计费。

6) 上线清单(Checklist)

模块 必须具备
统一 SDK / 网关 统一请求格式(messages / tools / schemas / attachments),统一错误码,统一重试策略
模型注册表 能力、限制、价格倍率、可用套餐、默认路由与 fallback
路由与降级 按模态分池 + SLA 选层 + 同层动态排序 + 自动 fallback
计费与权益 积分扣费、倍率、包月/年付、无限工作流边界、FUP 策略
风控与合规 内容安全、商用授权条款展示、审计日志、数据隔离(企业)
观测与评测 成功率/延迟/成本、供应商健康度、内部评测集每周回归、A/B 灰度

如果你要快速落地“推荐模型”体验:优先把 Router + Registry + 观测搭好,其次再做价格/权益 UI。

参考链接(榜单/数据源)

注:榜单会随时间变化;本页面记录 2025-12-31 快照,建议你在平台内做“内部 SOTA(真实任务集)”作为最终路由依据。