SOTA 视频智能体架构蓝图

Core: Opus 4.5 (Brain) SDK: Claude Agentic SDK Visual: Veo 3.1 / Kling 2.6 / Nano-Banana Engine: Remotion + No-Rollback

1. Neuro-Symbolic 混合架构 (The Brain & The Body)

本方案废弃单一模型蛮力生成,采用 “Opus 4.5 规划 + Skills 路由 + Remotion 组装” 模式。 Opus 4.5 不负责生成像素,只负责“思考”和“调用工具”。

User Request
Agentic SDK (Runtime)
Opus 4.5 (Planner)
Skills (Kling/Veo/Gemini)
Remotion Assembly
Final MP4

🧠 决策与规划 (The Brain)

  • Opus 4.5: 负责复杂逻辑拆解、Tool Calling、参数构造。它是唯一“思考”的组件。
  • Gemini 3 Flash: 负责海量文本处理、生成 JSON 配置文件、OCR 校验、Runlog 分析。

🎨 视觉与动态 (The Senses)

  • Nano-Banana (Gemini 3): Anchoring 负责生成角色三视图/风格定调图(作为 I2V 的输入源)。
  • Kling 2.6 Pro: Character 负责人物表演、大幅度动作 (必须走 I2V 模式)。
  • Veo 3.1: World 负责自然风光、长镜头 (60s)、原生音效同步。
  • Sora 2 Pro: VFX 负责超现实特效、脑洞转场。

⚙️ 工程与组装 (The Skeleton)

  • Remotion: Assembly 负责时间轴、字幕渲染、UI 叠加、数据可视化(100% 清晰度)。
  • FFmpeg: Render 负责最终编码、响度归一化 (Loudnorm)、格式封装。

2. Agent System Prompt (Opus 4.5 专用)

此 Prompt 针对 Claude Agentic SDK 设计,强调工具调用而非闲聊。

You are the **Video Engineering Orchestrator (VEO-Opus)**. Running Environment: **Claude Agentic SDK**. Model: **Opus 4.5**. **【Mission】** Translate abstract user requests into a cinema-grade video by coordinating SOTA tools. You do NOT generate video pixels yourself; you call tools to create assets and assemble them. **【Core Protocol: The "Anchor-Drive-Assemble" Loop】** 1. **ANCHOR (Visual Consistency)**: - **NEVER** generate a video clip directly from text if it involves a character. - Action: Call skill_generate_image(nano_banana | flux_2) to create a "Character Sheet". - Result: Get an immutable asset URL (e.g., `s3://.../anchor_v1.png`). 2. **DRIVE (Motion Synthesis)**: - Use the Anchor URL as input for Image-to-Video tools. - Action: Call skill_generate_video(kling_2_6 | veo_3_1). - **Routing Logic**: * Character Action -> **Kling 2.6** (High adherence to skeleton) * Nature/Physics/Audio -> **Veo 3.1** (Native audio support) * Surreal/VFX -> **Sora 2** 3. **ASSEMBLE (Engineering)**: - Construct a `props.json` for Remotion. - Action: Call skill_render_manifest(job_id, props). - Constraint: Text/Subtitles MUST be rendered by Remotion (Code), NOT AI. **【Engineering Constraints: No-Rollback】** - All assets are immutable. Files are written to `artifacts/{job_id}/v{version}/`. - If a tool fails, increment version (v1 -> v2) and retry. **NEVER** overwrite. - Return the final public URL only after `skill_quality_check` passes.

3. 技能定义 (Agentic Skills Implementation)

基于 Python SDK 的 Skill 实现骨架。

from anthropic_agentic_sdk import tool

# 1. 视觉锚点 (Nano-Banana / Gemini 3)
@tool
async def create_visual_anchor(
    prompt: str, 
    style_preset: str = "cinematic"
) -> str:
    """
    生成视觉锚点图(三视图或关键帧)。
    Returns: Immutable Asset URL
    """
    # 强制优化 Prompt 以获得三视图
    enhanced_prompt = f"{prompt}, character sheet, front/side view, 8k"
    # 调用 Nano-Banana (Gemini 3 Image)
    url = await nanobanana_api.generate(enhanced_prompt)
    return save_immutable_asset(url, tag="anchor")

# 2. 视频生成 (路由逻辑封装在 Skill 内部)
@tool
async def generate_motion_clip(
    prompt: str,
    scene_type: str, # "character" | "world" | "vfx"
    anchor_image_url: str = None
) -> str:
    """
    SOTA 模型路由生成器。
    """
    if scene_type == "character":
        if not anchor_image_url:
            raise ValueError("Kling requires anchor image!")
        # 强制走 I2V 模式 (Kling 2.6)
        return await kling_api.i2v(prompt, anchor_image_url)
    
    elif scene_type == "world":
        # Veo 3.1 开启原生音效 (Native Audio)
        return await veo_api.generate(prompt, with_audio=True)
        
    else:
        # Sora 2 Pro
        return await sora_api.generate(prompt)

# 3. 组装清单 (Remotion)
@tool
async def write_assembly_manifest(
    job_id: str,
    timeline: list[dict]
) -> str:
    """
    生成 props.json。
    timeline 包含: { asset_path, start_frame, duration, subtitle_text }
    """
    version = get_next_version(job_id)
    path = f"artifacts/{job_id}/{version}/props.json"
    save_json(path, timeline)
    return path

4. 目录结构 (No-Rollback)

严格的版本化文件系统,便于 Opus 追溯与修复。

workspace/
├── .agent_memory.json (Opus 状态持久化)
└── artifacts/
    └── job_titan_001/
        ├── assets/ (AI 素材池 - 只读/哈希命名)
        │   ├── anchor_char_01.png (by Nano-Banana)
        │   ├── clip_kling_run_v1.mp4 (I2V)
        │   └── clip_veo_rain_v1.mp4 (含音频)
        ├── v0001/ (尝试 1)
        │   ├── plan.md (Opus 的思考过程)
        │   ├── props.json (Remotion 配置)
        │   └── render_log.txt (FFmpeg 报错)
        └── v0002/ (尝试 2 - 修复版)
            ├── props.json (引用了新素材)
            └── final_output.mp4

5. 落地执行 Checklist

Phase 1: 基础设施

  • ✅ 部署 Python MCP Server (承载 Skills)。
  • ✅ 对接 SOTA API (Replicate/Fal.ai)。
  • ✅ 搭建 Remotion 渲染微服务 (Node.js)。

Phase 2: 智能体调优

  • ✅ 编写 Opus 4.5 System Prompt (注入协议)。
  • ✅ 测试 I2V 一致性 (Anchor 机制是否生效)。
  • ✅ 压力测试 No-Rollback 修复机制。