SOTA 视频智能体架构蓝图 (Opus 4.5 + Agentic SDK)
原创
灵阙教研团队
A 推荐 提升 |
约 4 分钟阅读
更新于 2025-12-24 AI 导读
SOTA 视频智能体架构蓝图 Core: Opus 4.5 (Brain) SDK: Claude Agentic SDK Visual: Veo 3.1 / Kling 2.6 / Nano-Banana Engine: Remotion + No-Rollback 1. Neuro-Symbolic 混合架构 (The Brain & The Body) 本方案废弃单一模型蛮力生成,采用...
SOTA 视频智能体架构蓝图
Core: Opus 4.5 (Brain)
SDK: Claude Agentic SDK
Visual: Veo 3.1 / Kling 2.6 / Nano-Banana
Engine: Remotion + No-Rollback
1. Neuro-Symbolic 混合架构 (The Brain & The Body)
本方案废弃单一模型蛮力生成,采用 “Opus 4.5 规划 + Skills 路由 + Remotion 组装” 模式。 Opus 4.5 不负责生成像素,只负责“思考”和“调用工具”。
User Request
→
Agentic SDK (Runtime)
↔
Opus 4.5 (Planner)
→
Skills (Kling/Veo/Gemini)
→
Remotion Assembly
→
Final MP4
🧠 决策与规划 (The Brain)
- Opus 4.5: 负责复杂逻辑拆解、Tool Calling、参数构造。它是唯一“思考”的组件。
- Gemini 3 Flash: 负责海量文本处理、生成 JSON 配置文件、OCR 校验、Runlog 分析。
🎨 视觉与动态 (The Senses)
- Nano-Banana (Gemini 3): Anchoring 负责生成角色三视图/风格定调图(作为 I2V 的输入源)。
- Kling 2.6 Pro: Character 负责人物表演、大幅度动作 (必须走 I2V 模式)。
- Veo 3.1: World 负责自然风光、长镜头 (60s)、原生音效同步。
- Sora 2 Pro: VFX 负责超现实特效、脑洞转场。
⚙️ 工程与组装 (The Skeleton)
- Remotion: Assembly 负责时间轴、字幕渲染、UI 叠加、数据可视化(100% 清晰度)。
- FFmpeg: Render 负责最终编码、响度归一化 (Loudnorm)、格式封装。
2. Agent System Prompt (Opus 4.5 专用)
此 Prompt 针对 Claude Agentic SDK 设计,强调工具调用而非闲聊。
You are the **Video Engineering Orchestrator (VEO-Opus)**.
Running Environment: **Claude Agentic SDK**.
Model: **Opus 4.5**.
**【Mission】**
Translate abstract user requests into a cinema-grade video by coordinating SOTA tools.
You do NOT generate video pixels yourself; you call tools to create assets and assemble them.
**【Core Protocol: The "Anchor-Drive-Assemble" Loop】**
1. **ANCHOR (Visual Consistency)**:
- **NEVER** generate a video clip directly from text if it involves a character.
- Action: Call skill_generate_image(nano_banana | flux_2) to create a "Character Sheet".
- Result: Get an immutable asset URL (e.g., `s3://.../anchor_v1.png`).
2. **DRIVE (Motion Synthesis)**:
- Use the Anchor URL as input for Image-to-Video tools.
- Action: Call skill_generate_video(kling_2_6 | veo_3_1).
- **Routing Logic**:
* Character Action -> **Kling 2.6** (High adherence to skeleton)
* Nature/Physics/Audio -> **Veo 3.1** (Native audio support)
* Surreal/VFX -> **Sora 2**
3. **ASSEMBLE (Engineering)**:
- Construct a `props.json` for Remotion.
- Action: Call skill_render_manifest(job_id, props).
- Constraint: Text/Subtitles MUST be rendered by Remotion (Code), NOT AI.
**【Engineering Constraints: No-Rollback】**
- All assets are immutable. Files are written to `artifacts/{job_id}/v{version}/`.
- If a tool fails, increment version (v1 -> v2) and retry. **NEVER** overwrite.
- Return the final public URL only after `skill_quality_check` passes.
3. 技能定义 (Agentic Skills Implementation)
基于 Python SDK 的 Skill 实现骨架。
from anthropic_agentic_sdk import tool
# 1. 视觉锚点 (Nano-Banana / Gemini 3)
@tool
async def create_visual_anchor(
prompt: str,
style_preset: str = "cinematic"
) -> str:
"""
生成视觉锚点图(三视图或关键帧)。
Returns: Immutable Asset URL
"""
# 强制优化 Prompt 以获得三视图
enhanced_prompt = f"{prompt}, character sheet, front/side view, 8k"
# 调用 Nano-Banana (Gemini 3 Image)
url = await nanobanana_api.generate(enhanced_prompt)
return save_immutable_asset(url, tag="anchor")
# 2. 视频生成 (路由逻辑封装在 Skill 内部)
@tool
async def generate_motion_clip(
prompt: str,
scene_type: str, # "character" | "world" | "vfx"
anchor_image_url: str = None
) -> str:
"""
SOTA 模型路由生成器。
"""
if scene_type == "character":
if not anchor_image_url:
raise ValueError("Kling requires anchor image!")
# 强制走 I2V 模式 (Kling 2.6)
return await kling_api.i2v(prompt, anchor_image_url)
elif scene_type == "world":
# Veo 3.1 开启原生音效 (Native Audio)
return await veo_api.generate(prompt, with_audio=True)
else:
# Sora 2 Pro
return await sora_api.generate(prompt)
# 3. 组装清单 (Remotion)
@tool
async def write_assembly_manifest(
job_id: str,
timeline: list[dict]
) -> str:
"""
生成 props.json。
timeline 包含: { asset_path, start_frame, duration, subtitle_text }
"""
version = get_next_version(job_id)
path = f"artifacts/{job_id}/{version}/props.json"
save_json(path, timeline)
return path
4. 目录结构 (No-Rollback)
严格的版本化文件系统,便于 Opus 追溯与修复。
workspace/
├── .agent_memory.json (Opus 状态持久化)
└── artifacts/
└── job_titan_001/
├── assets/ (AI 素材池 - 只读/哈希命名)
│ ├── anchor_char_01.png (by Nano-Banana)
│ ├── clip_kling_run_v1.mp4 (I2V)
│ └── clip_veo_rain_v1.mp4 (含音频)
├── v0001/ (尝试 1)
│ ├── plan.md (Opus 的思考过程)
│ ├── props.json (Remotion 配置)
│ └── render_log.txt (FFmpeg 报错)
└── v0002/ (尝试 2 - 修复版)
├── props.json (引用了新素材)
└── final_output.mp4
5. 落地执行 Checklist
Phase 1: 基础设施
- ✅ 部署 Python MCP Server (承载 Skills)。
- ✅ 对接 SOTA API (Replicate/Fal.ai)。
- ✅ 搭建 Remotion 渲染微服务 (Node.js)。
Phase 2: 智能体调优
- ✅ 编写 Opus 4.5 System Prompt (注入协议)。
- ✅ 测试 I2V 一致性 (Anchor 机制是否生效)。
- ✅ 压力测试 No-Rollback 修复机制。