AI 视频智能体工程体系

全面测试与优化计划
Gemini 3 Pro • Nanobanana • Veo 3.1 • FFmpeg

一、 模块化工程架构 (The Architecture)

参考 SSY 的模块化一致性设计与 Medeo 的时序流逻辑,将系统解耦为四大仿生模块。

🧠 大脑层 (Director)
Gemini 3 Pro 路由分发

不仅写剧本,更输出标准化的 Project Manifest (JSON)

  • 场景/镜号分配
  • 视觉 Prompt 结构化
  • 角色一致性设定
❤️ 心脏层 (Driver)
Gemini 2.5 TTS Librosa

确立时间的绝对基准,驱动所有视觉元素。

  • TTS 波形分析 (毫秒级)
  • MV 节拍/重音检测
  • 静音停顿检测
💪 四肢层 (Factory)
Nanobanana Veo 3.1

高并发资产生产流水线。

  • <10个: 全并发生成
  • >20个: 流水线分批 (Batching)
  • 图生视频 (I2V)
🦴 骨架层 (Assembly)
FFmpeg Python

硬组装、特效处理与关键帧解析。

  • 自动对齐 (Audio-Driven)
  • 动态运镜 (Ken Burns)
  • 盲剪机制 (Trim/Loop)

二、 故事线场景深度优化

1. 知识讲解 (Knowledge Explainer)
去PPT化 FFmpeg ZoomPan

⚠️ 痛点:画面静止无聊,音画不同步。

优化方案:

  • 视觉分类:Gemini 区分“纯画面”与“信息图”,调用代码解释器绘制准确图表。
  • 动态运镜:对所有静图施加缓慢推拉 (Ken Burns),拒绝静止帧。
  • 字幕对齐:提取 TTS 单词级时间戳,实现卡拉OK式字幕。
2. 音乐 MV (Music Video)
盲剪机制 Veo I2V
Medeo Audio-Driven Workflow
BPM CUT
AUDIO
Music Beat (120 BPM) • Kick • Snare • Kick • Snare
VIDEO
Nano (Pan)
Veo (Motion)
Trim

优化方案:

  • Librosa 分析:提取强拍 (Onsets) 生成剪辑点序列。
  • 混合流:主歌用静帧+运镜;副歌用 Veo 动态视频。
  • 自动对齐:视频长于节拍自动切尾;短于节拍自动 Boomerang (倒放填充)。
3. 社交短剧 (Social Drama)
SSY架构 IP-Adapter

⚠️ 痛点:角色 OOC (长相不一),表情僵硬。

优化方案:

  • Casting (定妆):预先生成主角三视图,提取 FaceID Embedding。
  • 分层生成:Layer 1 背景 + Layer 2 带透明通道的角色 (受控于 Pose/Face)。
  • 情绪注入:脚本标记 [Crying],Prompt 自动追加 tears, sad expression
4. 动漫混剪 (Anime Remix)
RIFE插帧 Style LoRA

优化方案:

  • 风格锁定:Prompt 强制追加特定动漫模型的 Trigger Words。
  • 帧率增强:Nanobanana/Veo 素材通过 RIFE 算法强制插值至 60fps,打造丝滑感。
  • 动态脚本:Gemini 侧重动作描写 (Slashing, Running) 配合 Veo 增强动感。

三、 智能体工程核心逻辑 (Python)

实现“自动解析关键帧”与“分批流水线”的核心代码。

class VideoProject:
    def __init__(self, script_json):
        # Project Manifest: 维护所有资产状态
        # list of {id, prompt, audio, duration, asset_path}
        self.timeline = script_json  

    async def batch_generate_assets(self):
        # 智能分包策略:解决并发限制 (10/20规则)
        batch_size = 10
        batches = [self.timeline[i:i + batch_size] for i in range(0, len(self.timeline), batch_size)]
        
        for batch in batches:
            # 并行生成当前批次
            tasks = [nanobanana.generate(scene['prompt']) for scene in batch]
            results = await asyncio.gather(*tasks)
            
            # 【关键体验】Batch A 完成即刻预渲染,前端无需等待全片
            # 实现了“边生成边播放”的流式体验
            await self.render_preview_clip(batch)

    def regenerate_scene_asset(self, scene_id, new_prompt):
        # 用户修改 Prompt 后,仅重绘该帧
        new_asset = nanobanana.generate_sync(new_prompt)
        
        # 更新 Manifest
        scene = self.get_scene(scene_id)
        scene['asset_path'] = new_asset
        
        # Smart Render: 利用 FFmpeg concat demuxer 仅替换片段
        # 无需重编全片,实现秒级响应
        return ffmpeg.smart_replace(self.full_video, scene_id, new_asset)

四、 用户体验地图 (UX Map) & 测试指标

阶段 用户行为 系统响应 (Agent Action) 体验优化点 (Wow Moment) KPI 指标
1. 意图 输入“做个黑洞科普” Gemini 3 Pro 规划 -> 生成 JSON 结构化大纲:先出带图文描述的分镜表,而非黑盒生成。 脚本 < 3s
2. 生产 点击“生成视频” Celery 队列 -> 10并发/20分批 并行进度条:图片像“翻牌子”一样一张张点亮,即时反馈。 首帧 < 10s
3. 交互 暂停视频,点击画面 前端定位 Scene_ID -> 唤起修改弹窗 上下文修改:直接在画面上改 Prompt,所见即所得。 响应 < 200ms
4. 迭代 修改 Prompt 并确认 仅重绘该帧 -> 增量合成 秒级更新:利用 concat 技术,无需重新渲染全片。 重绘 < 5s
5. 交付 导出视频 插帧(60fps) + 超分 多端适配:同时生成 9:16 (抖音) 和 16:9 (B站) 版本。 对齐误差 0ms

AI Video Agent Engineering Plan v2.0 | Powered by Gemini & Nanobanana