智能体平台：推荐模型接入参考（截图设计拆解 + SOTA 榜）

原创灵阙教研团队

S 精选提升 | 约 10 分钟阅读更新于 2025-12-31

AI 导读

用途：智能体平台「推荐模型」接入参考 SOTA 快照：2025-12-31 基于：套餐截图（Pro/Ultimate） + 公开榜单智能体平台：推荐模型接入参考（截图设计拆解 + SOTA 榜）目标：把“模型名单”抽象为可复用的产品分层、路由策略、计费/权益，并给出一套多供应商 SOTA 模型池作为你平台的默认接入参考。 1. 截图设计拆解 2. 可复制的产品策略 3. 结合...

用途：智能体平台「推荐模型」接入参考

SOTA 快照：2025-12-31

基于：套餐截图（Pro/Ultimate） + 公开榜单

智能体平台：推荐模型接入参考（截图设计拆解 + SOTA 榜）

目标：把“模型名单”抽象为可复用的产品分层、路由策略、计费/权益，并给出一套多供应商 SOTA 模型池作为你平台的默认接入参考。

1. 截图设计拆解 2. 可复制的产品策略 3. 结合 SOTA：推荐模型池 4. 接入架构：注册表 & 路由 5. 计费：积分 + “无限”落地 6. 上线清单（Checklist）参考链接

1) 截图设计拆解：Pro vs Ultimate（两条“产品路径”）

Pro：偏“对话 / Agent 总控”

价格（截图）

$199.99/月

原价 $249.99（20% 折扣）

积分（截图）

125,000/月

统一内部货币

重点权益

聊天 / 图片“无限”

限定在智能体体验内

多供应商旗舰池：Claude / Gemini / GPT / Grok … 同时存在，营销“最强”，工程上“冗余”。
无限带期限：截图标注到 2026-12-31，本质是成本上限与商业调价窗口。
按模态扩展：还包含视频/音频最新模型访问、以及 1TB 存储（Drive）。

Ultimate：偏“创作 / 生成”

价格（截图）

$99/月

年付首年 $1,188；续费 $1,992

积分（截图）

27,000/月

首购当月双倍

重点权益

365 天“无限畅享”

主要覆盖图像/视频爆款

并发（10 任务）：生成类用户更需要并行出图/出视频。
日刷新积分：每天给用户“可用额度”，更利于留存。
可商用：把授权/合规作为权益售卖，覆盖工作室/B2B。

对你平台的启发：不要把“接入模型”当作单一维度的“更多=更好”，而要把模型池绑定到用户意图路径： Agent 路径（对话、工具调用、结构化输出） vs 创作路径（图像/视频/语音生成、并发、版权条款）。

2) 可复制的产品策略：把模型池做成「分层 + 路由 + 权益」

你真正要复用的不是“模型名单”，而是下面三件套： 分层（Tier）、路由（Router）、权益/计费（Entitlement & Billing）。

2.1 分层（建议）

层级	定位	适用任务	建议模型数量
Flagship	质量优先、复杂推理、工具调用稳定	Agent 总控、复杂分析、关键生产任务	2–3（跨供应商冗余）
Balanced	默认款：质量/速度/成本平衡	日常聊天、轻量工具链、知识问答	2（含便宜备选）
Fast	低延迟、高 QPS	摘要、客服、实时协作、检索增强	1–2
Specialists	按模态/任务引入“非 LLM”SOTA	文生图、图像编辑、文生视频、STT/TTS	每个模态 2–4

2.2 路由（建议）

先按模态分池（chat / image_gen / image_edit / video / audio…），别让 LLM 当“万能锤子”。
再按 SLA 选层：质量优先 → flagship；低延迟 → fast；默认 → balanced。
同层动态排序：健康度（成功率/超时率）、拥塞、单位成本、用户偏好。
内置 fallback：失败自动切换到第二供应商，保证体验与稳定。

2.3 权益（建议）——“无限”要做成可控形态

无限 = 受控体验只在你定义的“智能体模板 / 工作流”里无限（可缓存、可限流、可追踪）。
无限 = 公平使用（FUP）定义合理阈值（请求/分钟、并发、日量），超出回落到积分计费。
无限 = 路由权在平台允许平台在同层级模型间切换（拥塞/降本/灰度）。

3) 结合 SOTA 榜：推荐模型池（按模态）

下面表格来自公开榜单的“全局排行榜”快照（2025-12-31）。榜单会变化，你应当把它当作候选池，再用你自己的线上指标（成功率、平均延迟、用户满意度、单位成本）决定默认路由。

3.1 通用 LLM（Chat/Agent）：Chatbot Arena+（OpenLM.ai）Top 10

#	模型	Arena Elo	建议接入定位
1	Gemini-3-Pro	1492	旗舰默认 / 多模态总控（适合作为 Agent orchestrator）
2	Grok-4.1-Thinking	1482	难题/推理备用旗舰（偏“深思”档）
3	Gemini-3-Flash	1470	Balanced 默认（质量强 + 延迟更友好）
4	Claude Opus 4.5 (thinking-32k)	1466	高质量写作/推理（可做旗舰文本产出）
5	GPT-5.2-high	1465	生产级旗舰（工具调用/结构化输出的主力候选）
6	GPT-5.1-high	1464	旗舰备选（用于稳定性/成本策略切换）
7	GPT-5.2	1464	同族更“省”的档位（与 high 形成路由组合）
8	Grok-4.1	1463	快且强的备用旗舰（并发场景可用）
9	Claude Opus 4.5	1462	Opus 路径的更低延迟选择
10	Gemini-2.5-Pro	1460	成熟稳健的旗舰备选（多语言/生态稳定）

数据源：openlm.ai Chatbot Arena+（榜单会变化）

3.2 文生图（Text-to-Image）：Artificial Analysis Top 10（ELO）

#	模型	ELO	API 价格（/1000 张）	建议定位
1	OpenAI GPT Image 1.5 (high)	1,255	$133	默认旗舰（通用/写实）
2	Google Nano Banana Pro (Gemini 3 Pro Image)	1,222	$134	第二旗舰（与 GPT Image 形成双路由）
3	Black Forest Labs FLUX.2 [max]	1,210	$70	高质感/细节档
4	Black Forest Labs FLUX.2 [pro]	1,200	$30	平衡默认（更适合批量）
5	ByteDance Seed Seedream 4.0	1,192	$30	商业审美稳定
6	Black Forest Labs FLUX.2 [flex]	1,185	$60	弹性档（按成本/速度策略切换）
7	ByteDance Seed Seedream 4.5	1,170	$40	追新/补位旗舰
8	Google Nano Banana (Gemini 2.5 Flash Image)	1,163	$39	更快（交互式生成）
9	Google Imagen 4 Ultra Preview 0606	1,163	$60	写实稳定备选
10	ImagineArt 1.5 Preview	1,159	$30	补充风格多样性

数据源：artificialanalysis.ai 文生图榜单（ELO/价格）

3.3 图片编辑（Image Editing）：Artificial Analysis Top 10（ELO）

#	模型	ELO	API 价格（/1000 张）	建议定位
1	OpenAI GPT Image 1.5 (high)	1,263	$133	默认编辑旗舰（多步编辑/文本改图）
2	Google Nano Banana Pro (Gemini 3 Pro Image)	1,254	$134	第二旗舰（成本/风格对冲）
3	Black Forest Labs FLUX.2 [max]	1,204	$140	高端质感编辑
4	ByteDance Seed Seedream 4.5	1,202	$40	内容生产型编辑
5	ByteDance Seed Seedream 4.0	1,188	$30	稳定默认
6	Google Nano Banana (Gemini 2.5 Flash Image)	1,185	$39	更快（交互式编辑）
7	Black Forest Labs FLUX.2 [pro]	1,174	$45	平衡档
8	Reve V1 (December)	1,171	$40	创意/风格编辑备选
9	Black Forest Labs FLUX.2 [flex]	1,165	$120	策略性补位（按供应/速率）
10	Pruna AI P-Image-Edit	1,141	$10	便宜备选（批量/低风险任务）

数据源：artificialanalysis.ai 图片编辑榜单（ELO/价格）

3.4 文生视频（Text-to-Video）：Artificial Analysis Top 10（ELO）

#	模型	ELO	API 价格	建议定位
1	Runway Gen-4.5	1,239	Coming soon	高端商业视频（注意 API 可用性）
2	Google Veo 3 (No Audio)	1,224	$12/min	旗舰默认视频生成器
3	Kling 2.5 Turbo 1080p	1,221	Coming soon	动作/镜头语言强（短视频生产线）
4	Google Veo 3.1 Preview (No Audio)	1,219	$12/min	追新/风格变化
5	Google Veo 3.1 Fast Preview (No Audio)	1,217	$9/min	更快（交互式生成）
6	Luma Labs Ray 3	1,209	Coming soon	补充风格（第二梯队）
7	OpenAI Sora 2 Pro (No Audio)	1,203	$30/min	旗舰备选（长镜头/高质量）
8	OpenAI Sora 2 (December, No Audio)	1,200	$6/min	成本/质量平衡（默认档）
9	MiniMax Hailuo 02 Standard	1,197	$2.8/min	性价比强（批量）
10	MiniMax Hailuo 2.3	1,182	$2.8/min	升级版（追新）

数据源：artificialanalysis.ai 文生视频榜单（ELO/价格）

3.5 语音：STT（ASR）与 TTS（Speech Arena）

STT（Speech-to-Text）：建议做“两条路线”

模型/提供方	WER（越低越好）	速度因子（中位数）	价格（USD / 1000 分钟）	建议定位
Google Chirp 2	11.6%	17.8	$16.00	准确率优先（高价值转写）
Speechmatics Enhanced	14.4%	24.7	$6.70	准确+稳健（生产备选）
AssemblyAI Universal	14.5%	84.4	$2.50	性价比默认
OpenAI Whisper Large v2	15.8%	31.1	$6.00	生态成熟（通用备选）
Deepgram Nova-3	18.3%	517.6	$4.30	吞吐优先（大规模实时）
Google Gemini 2.0 Flash Lite	16.6%	59.9	$0.19	极低成本（低风险/草稿）

数据源：artificialanalysis.ai Speech-to-Text（WER/速度/价格）

TTS（Text-to-Speech）：Artificial Analysis Speech Arena Top 10（ELO）

#	模型	ELO	价格（USD / 1M chars）	建议定位
1	Inworld TTS 1 Max	1,172	$10	旗舰音质（知识分享/助手）
2	MiniMax Speech 2.6 HD	1,155	$100	高端音质（对质感敏感）
3	MiniMax Speech 2.6 Turbo	1,148	$60	更快的高质量
4	MiniMax Speech-02-HD	1,123	$100	高质量备选
5	MiniMax Speech-02-Turbo	1,120	$60	平衡备选
6	Inworld TTS 1	1,112	$5	更便宜的高质量
7	ElevenLabs Multilingual v2	1,110	$206	多语种生态（更贵）
8	OpenAI TTS-1	1,108	$15	稳定通用
9	ElevenLabs v3	1,102	$206	高质量但成本高
10	ElevenLabs Turbo v2.5	1,100	$103	更快的 ElevenLabs 档位

数据源：artificialanalysis.ai Text-to-Speech Leaderboard（Speech Arena）

建议的“默认路由”组合（你可以直接抄）：

LLM 旗舰：Gemini-3-Pro + GPT-5.2-high（主） + Claude Opus 4.5 (thinking)（备）
LLM 默认：Gemini-3-Flash（Balanced） + GPT-5.2（更省）
文生图：GPT Image 1.5 (high)（主） + Nano Banana Pro（备） + FLUX.2 [pro]（批量）
图像编辑：GPT Image 1.5 (high)（主） + Seedream 4.0/4.5（生产）
视频：Veo 3（主） + Sora 2（备） + Hailuo（批量/便宜）
语音：STT（Chirp2/AssemblyAI）双路线 + TTS（Inworld/OpenAI）双路线

4) 接入架构：模型注册表（Registry）& 路由器（Router）

多供应商接入的关键是“统一抽象”：把不同 API 的差异收敛到一个内部接口，并且把成本/限流/能力写进模型元数据。

4.1 模型注册表（推荐：配置中心 / DB）

{
  "id": "openai:gpt-5.2-high",
  "provider": "openai",
  "tier": "flagship",
  "modality": ["text", "vision"],
  "capabilities": {
    "tool_calling": true,
    "json_mode": true,
    "long_context": true
  },
  "limits": {
    "max_context_tokens": 200000,
    "rpm": 60,
    "tpm": 200000
  },
  "economics": {
    "billing_unit": "points",
    "points_multiplier": 1.0
  },
  "entitlement": {
    "allowed_plans": ["pro", "enterprise"],
    "unlimited_in_workflow": ["agent_chat"]  // 仅在受控工作流内“无限”
  },
  "routing": {
    "default_for": ["agent_orchestrator", "complex_reasoning"],
    "fallbacks": ["google:gemini-3-pro", "anthropic:claude-opus-4.5-thinking"]
  }
}

4.2 路由器（Router）伪代码：按任务 + SLA + 成本自动选型

// TypeScript 风格伪代码
type Task = {
  type: "chat" | "code" | "vision" | "image_gen" | "image_edit" | "video_gen" | "stt" | "tts";
  needTools?: boolean;
  needJson?: boolean;
  quality?: "low" | "med" | "high";
  latencyTargetMs?: number;
  budgetPoints?: number;
  plan?: "free" | "creator" | "pro" | "enterprise";
};

function route(task: Task) {
  const pool = pickPool(task.type);

  // 权益过滤：比如“无限”只允许命中某些模型/工作流
  const allowed = filterByPlan(pool, task.plan);

  // 分层：先决定 tier
  const tier = chooseTier(task.quality, task.latencyTargetMs);

  // 排序：健康度/成本/拥塞/能力匹配
  const ranked = rank(allowed, {
    tier,
    needTools: task.needTools,
    needJson: task.needJson
  });

  return {
    primary: ranked[0],
    fallbacks: ranked.slice(1, 4)
  };
}

4.3 观测（必须做）

每次调用都记录：模型、prompt tokens、output tokens、延迟、失败原因、重试次数、成本。
分供应商健康度：超时率/5xx/限流、地区性波动、峰值拥塞。
离线回归集：用你自己的 20–50 个真实任务作为“内部 SOTA”，每周自动跑。

5) 计费：积分（Points）+ “无限”落地

5.1 为什么截图里的平台爱用“积分”

对外统一：用户只理解“积分”，不用理解 token/秒/分钟/图像定价。
对内可调：不同供应商成本差异巨大，积分倍率可以动态调整（不改用户套餐）。
便于做“无限”：把某些模型在某些工作流内设为 points_multiplier = 0，但仍可限流与风控。

5.2 建议的“积分倍率”策略（可直接套用）

模型/层级	倍率（示例）	解释
LLM Flagship（GPT/Claude/Gemini 顶配）	1.0–2.0×	高价值任务；给足预算但避免滥用
LLM Balanced（Flash/中档）	0.4–0.9×	默认路由；用它覆盖 70% 日常请求
LLM Fast（mini/haiku 等）	0.2–0.5×	高 QPS；对质量较宽容的任务
图片旗舰（GPT Image high / Nano Banana Pro）	1.0–2.0×	少量高端出图；结合“无限包”更好卖
视频旗舰（Veo/Sora 等）	2.0× 起	成本高，必须有强限流与预估
“无限”工作流内	0×	但要有 FUP、并发限制、输出上限与风控

5.3 “无限”落地要点

明确边界：无限只覆盖你可控的“智能体产品形态”（模板、工具链、缓存、输入限制）。
预算守门：对重度请求先用便宜模型做“判别/提纲/检索”，必要时再升级旗舰。
防滥用：按用户、按 IP、按工作区做速率限制；对异常模式（批量脚本）降级到积分计费。

6) 上线清单（Checklist）

模块	必须具备
统一 SDK / 网关	统一请求格式（messages / tools / schemas / attachments），统一错误码，统一重试策略
模型注册表	能力、限制、价格倍率、可用套餐、默认路由与 fallback
路由与降级	按模态分池 + SLA 选层 + 同层动态排序 + 自动 fallback
计费与权益	积分扣费、倍率、包月/年付、无限工作流边界、FUP 策略
风控与合规	内容安全、商用授权条款展示、审计日志、数据隔离（企业）
观测与评测	成功率/延迟/成本、供应商健康度、内部评测集每周回归、A/B 灰度

如果你要快速落地“推荐模型”体验：优先把 Router + Registry + 观测搭好，其次再做价格/权益 UI。

参考链接（榜单/数据源）

注：榜单会随时间变化；本页面记录 2025-12-31 快照，建议你在平台内做“内部 SOTA（真实任务集）”作为最终路由依据。