AI 视频生成技术全景

灵阙学院 | AI 视频智能体系列


引言:60 秒改变一切的那一天

2024 年 2 月,OpenAI 发布 Sora 演示视频。一位女性在东京街头漫步,雨水倒映在霓虹灯下,摄影机平稳推进,路人的衣角随风微动。整整 60 秒,没有一处明显的"AI 感"。

这一刻,视频生成模型从"能用但粗糙"跃迁到"让专业人士停下来认真审视"。此后不到两年,整个赛道急剧加速:Google 推出 Veo 3,中国公司快手推出可灵 2.0(Kling),Runway 到了 Gen-4,字节的即梦、Minimax 的海螺、Luma 的 Ray2 紧随其后。到 2026 年初,AI 视频生成已经嵌入内容创作者的日常工作流。

本文从技术架构到产品对比、从质量评估到生产管道,系统梳理 2025-2026 年 AI 视频生成的全景图。


一、核心技术架构演进

1.1 四代范式

视频生成技术演进

2016-2020: GAN 时代
  VideoGAN -> MoCoGAN -> DVD-GAN
  问题:训练不稳定、模式崩溃、分辨率受限

2020-2022: 自回归 + Transformer
  VideoGPT -> NUWA -> CogVideo
  问题:推理慢、时序一致性差

2022-2023: U-Net 扩散模型
  Stable Video Diffusion -> ModelScope -> ZeroScope
  问题:时长受限、运动不自然

2024-2026: 扩散 Transformer (DiT) <-- 当前主流
  Sora -> Veo 2/3 -> Kling 2.0 -> Gen-4
  突破:长视频、物理一致性、指令理解、音频同步

1.2 DiT 架构详解

Sora 之后,DiT(Diffusion Transformer)成为事实标准。核心改进是用全注意力 Transformer 替换 U-Net,让模型能建模任意距离的时空关系。

Diffusion Transformer (DiT) 视频生成流程

输入: 文本提示 + 可选参考图像/视频
  |
  v
+------------------------------------------------------+
|          文本编码器 (Text Encoder)                     |
|  T5-XXL / CLIP / 双编码器混合                         |
|  输出:语义向量 (768-4096 dim)                        |
+------------------------------------------------------+
  |
  v
+------------------------------------------------------+
|      时空 Patch 化 (Spatiotemporal Patchify)          |
|  视频帧序列 (T, H, W, C)                             |
|  -> 时空 Token: (T/pt, H/ps, W/ps, D)               |
|  位置编码:3D RoPE                                    |
+------------------------------------------------------+
  |
  v
+------------------------------------------------------+
|   全注意力 Transformer 主干 (N layers)                |
|                                                      |
|   每层包含:                                          |
|   - Self-Attention (时空 Token 间)                   |
|   - Cross-Attention (文本条件注入)                    |
|   - AdaLayerNorm (噪声步 t + 条件自适应归一化)       |
|   - Feed-Forward Network                             |
+------------------------------------------------------+
  |
  v
+------------------------------------------------------+
|        视频 VAE 解码器 (Video VAE Decoder)            |
|  潜空间 Token -> 像素空间视频帧                       |
|  压缩比:时间 4x,空间 8x (典型值)                   |
+------------------------------------------------------+
  |
  v
输出: 视频帧 (T, H, W, 3)

1.3 DiT vs U-Net:为什么 Transformer 胜出

维度 U-Net 扩散 DiT 扩散
感受野 局部(卷积核限制) 全局(自注意力)
时空建模 分离或伪 3D 原生时空联合
长视频一致性 差(局部卷积) 好(全局注意力)
可扩展性 有限(架构固定) 强(Scaling Law 友好)
物理真实性 中等 强(全局因果建模)
计算成本 较低 高(O(n^2) 注意力)
代表产品 SVD, ModelScope Sora, Veo, Kling 2.0

核心差异:U-Net 的卷积核只能"看到"局部区域,导致视频前 3 秒和后 3 秒之间的物体一致性经常断裂。DiT 的全局注意力让模型能同时关注任意时空位置,从而更好地建模"这棵树从头到尾要长一个样"。


二、主流平台全面对比(2026 年初)

2.1 技术指标

平台 最高分辨率 最大时长 帧率 I2V 音频 API
Sora 2 (OpenAI) 4K 60s 30fps 对话同步
Veo 3 (Google) 4K 120s+ 24fps 原生音频 Vertex AI
Kling 2.0 (快手) 2K 180s 30fps 配音 商业 API
Gen-4 (Runway) 1080p 15s 24fps API
海螺 (Minimax) 1080p 60s 25fps TTS 集成 API
即梦 (字节) 1080p 60s 24fps 配音 企业版
Pika 2.2 1080p 15s 24fps 有限
Luma Ray 2 1080p 9s 24fps API

2.2 能力维度深度对比

维度 Sora 2 Veo 3 Kling 2.0 Gen-4
物理真实性 良+
人物一致性 良+ 良+
文字渲染
中文指令理解
运镜控制
音频同步
长视频一致性
生成速度 慢(分钟级) 快(秒级)
每分钟成本 ~$3-8 ~$2-5 ~$1-3 ~$0.5-2

2.3 场景选择矩阵

场景 推荐方案 理由
影视级视觉特效 Sora 2 + Veo 3 物理真实性最优
中文内容创作 Kling 2.0 + 即梦 中文理解 + 本土生态
高频批量生产 Gen-4 + Kling API 速度和成本平衡
电商产品视频 Kling + Pika 产品展示稳定
需要原生音频 Veo 3 唯一原生音频生成
教育/培训 海螺 + 即梦 合规性和本地化

三、三大生成模式

3.1 文本生成视频 (T2V)

"""
Kling API 文生视频示例
"""
import httpx
import time

KLING_API = "https://api.klingai.com/v1"


def text_to_video(
    prompt: str,
    negative_prompt: str = "",
    duration: int = 5,
    aspect: str = "16:9",
    mode: str = "std",
    api_key: str = "",
) -> str:
    """提交 T2V 任务,返回 task_id"""
    resp = httpx.post(
        f"{KLING_API}/videos/text2video",
        json={
            "model": "kling-v2",
            "prompt": prompt,
            "negative_prompt": negative_prompt,
            "cfg_scale": 0.5,
            "duration": duration,
            "aspect_ratio": aspect,
            "mode": mode,
        },
        headers={"Authorization": f"Bearer {api_key}"},
        timeout=30,
    )
    resp.raise_for_status()
    return resp.json()["data"]["task_id"]


def poll_result(task_id: str, api_key: str, timeout: int = 300) -> dict:
    """轮询直到完成。典型:std 2-5min,pro 5-10min"""
    start = time.time()
    while time.time() - start < timeout:
        resp = httpx.get(
            f"{KLING_API}/videos/text2video/{task_id}",
            headers={"Authorization": f"Bearer {api_key}"},
        )
        data = resp.json()["data"]
        status = data.get("task_status")
        if status == "succeed":
            return {
                "video_url": data["task_result"]["videos"][0]["url"],
                "duration": data["task_result"]["videos"][0]["duration"],
            }
        elif status == "failed":
            raise RuntimeError(f"Failed: {data.get('task_status_msg')}")
        time.sleep(min(10 + (time.time() - start) // 30, 30))
    raise TimeoutError(f"Timed out after {timeout}s")

3.2 图生视频 (I2V)

图生视频是内容创作者最常用的工作流:先用 Midjourney/FLUX 生成精确构图,再用视频模型注入运动。

最佳实践

  1. 参考图分辨率 >= 720p
  2. motion_prompt 描述运镜(推拉摇移)比描述物体运动效果更稳
  3. 避免参考图中有文字(视频中容易变形)

3.3 运镜提示词模板

结构化提示词 = [主体] + [场景] + [运镜] + [光线] + [技术参数]

示例:
"A lone astronaut"                    # 主体
"walks across red Martian landscape"  # 场景
"slow dolly forward, wide shot"       # 运镜
"golden sunset light, dust particles" # 光线
"4K, 24fps, cinematic, anamorphic"    # 参数

常用运镜词汇表:

运镜 英文 效果
推进 dolly forward 摄影机向前移动
拉远 zoom out / dolly back 揭示全景
横摇 pan left/right 水平扫视
环绕 orbit / 360 rotation 绕主体旋转
升降 crane up/down 垂直升降
跟随 tracking shot 跟随主体移动
静止 static / locked camera 主体动,机位不动
手持 handheld 轻微晃动,纪实感

四、质量评估指标体系

4.1 自动化指标

指标 衡量维度 说明 参考值
FVD 整体质量 + 时序真实 越低越好 < 100 良好, < 50 优秀
CLIPSIM 文本-视频对齐度 余弦相似度 > 0.25 合格
SSIM 帧间结构一致 0-1 > 0.85 良好
temporal_consistency 帧间连贯性 相邻帧 CLIP 相似度均值 > 0.95 良好
motion_magnitude 运动丰富度 光流均值 场景相关

4.2 FVD 计算示例

"""
FVD (Frechet Video Distance) -- 视频生成质量的核心指标。
用 I3D 网络提取特征,计算真实/生成视频的分布距离。
"""
import numpy as np
from scipy.linalg import sqrtm


def compute_fvd(real_feats: np.ndarray, fake_feats: np.ndarray) -> float:
    """
    real_feats, fake_feats: (N, 400) 视频级特征向量
    由 I3D (Kinetics-400 预训练) 提取
    """
    mu_r, mu_f = np.mean(real_feats, 0), np.mean(fake_feats, 0)
    sig_r = np.cov(real_feats, rowvar=False)
    sig_f = np.cov(fake_feats, rowvar=False)

    diff = mu_r - mu_f
    covmean, _ = sqrtm(sig_r @ sig_f, disp=False)
    if np.iscomplexobj(covmean):
        covmean = covmean.real

    return float(diff @ diff + np.trace(sig_r + sig_f - 2 * covmean))


def temporal_consistency(frames: list, clip_model, clip_processor) -> float:
    """
    帧间 CLIP embedding 余弦相似度均值。
    > 0.95 良好,0.85-0.95 中等,< 0.85 差。
    """
    import torch
    embs = []
    for frame in frames:
        inp = clip_processor(images=frame, return_tensors="pt")
        with torch.no_grad():
            e = clip_model.get_image_features(**inp)
            e = e / e.norm(dim=-1, keepdim=True)
        embs.append(e[0].numpy())

    sims = [np.dot(embs[i], embs[i+1]) for i in range(len(embs)-1)]
    return float(np.mean(sims))

4.3 人工评估维度

维度 评分标准 权重
视觉质量 1-5:清晰度、无伪影、色彩 25%
运动自然度 1-5:符合物理规律 25%
文本对齐 1-5:内容与提示词匹配度 25%
时序一致性 1-5:场景/对象帧间稳定 15%
整体观感 1-5:创作者是否愿意使用 10%

五、生产工作流集成

5.1 内容创作者最优流程

完整 AI 视频生产流程

Step 1: 脚本 + 分镜
  Claude/GPT -> 脚本 -> 手动分镜 -> 每镜头写 AI 提示词

Step 2: 素材生成
  图像:Midjourney / FLUX / Ideogram
  视频:Kling Pro / Veo 3 (关键镜头)
        Gen-4 (快速批量)
  配音:ElevenLabs TTS / Minimax
  音效:Udio / Suno / 音效库

Step 3: 后期合成
  剪辑:DaVinci Resolve / Premiere
  AI 升分:Topaz Video AI
  AI 升帧:RIFE (24fps -> 60fps)
  字幕:Whisper 转写 + 翻译

Step 4: 质量把关
  时序一致性检查
  版权审核(AI 生成内容标注)
  平台审核预检

5.2 批量生产管道

import asyncio
from dataclasses import dataclass


@dataclass
class VideoJob:
    job_id: str
    prompt: str
    ref_image: str = None
    priority: int = 1
    platform: str = "youtube"  # 决定宽高比


class ProductionPipeline:
    """批量视频生产:多提供商并行 + 自动降级 + 重试"""

    ROUTING = {
        "high_quality": ["kling_pro", "veo3"],
        "fast_batch": ["gen4", "kling_std"],
        "budget": ["pika", "luma"],
    }

    def __init__(self, providers: dict):
        self.providers = providers

    async def batch(self, jobs: list[VideoJob], tier: str = "fast_batch"):
        sem = asyncio.Semaphore(5)

        async def one(job):
            async with sem:
                return await self._with_fallback(job, tier)

        return await asyncio.gather(*[one(j) for j in jobs])

    async def _with_fallback(self, job, tier):
        for name in self.ROUTING[tier]:
            try:
                provider = self.providers[name.split("_")[0]]
                mode = name.split("_")[1] if "_" in name else "std"
                result = await provider.generate(
                    prompt=job.prompt, ref_image=job.ref_image, mode=mode,
                )
                return {"job_id": job.job_id, "status": "ok", **result}
            except Exception:
                continue
        return {"job_id": job.job_id, "status": "failed"}

六、成本分析与优化

6.1 各平台成本对比

平台 标准 5s 成本 1080p 10s 成本 月订阅起步
Kling std ~$0.3 ~$0.7 $9.9
Kling pro ~$0.6 ~$1.4 $9.9
Gen-4 ~$0.5 ~$1.0 $15
Pika ~$0.2 ~$0.5 $8
Veo 3 (Vertex) ~$0.05/s ~$0.5 按量
Sora 2 未公开 未公开 ChatGPT Pro $200

6.2 成本优化策略

  1. 分级生产:草稿用 std,终稿用 pro
  2. 批量合同:签定量可获 20-40% 折扣
  3. 提示词优化:精准提示词减少重试(最大浪费来源)
  4. 结果缓存:相似提示词的结果存档复用
  5. 混合策略:关键镜头用优质提供商,补充镜头用经济方案

七、当前局限性与前沿方向

7.1 2026 年初仍存在的问题

局限性 具体表现 影响
人物一致性 长视频中面部漂移 叙事类内容受限
文字渲染 视频中文字变形消失 产品视频受限
精细物理 液体/布料/手指 技术类内容
精确控制 运镜轨迹难以精确指定 专业影视
版权伦理 肖像权/知识产权模糊 商业使用风险
生成速度 高质量仍需分钟级 实时应用受限

7.2 2026 年的前沿突破方向

1. 世界模型 (World Model)

Sora 团队一直将其定位为"物理世界的模拟器"。下一代模型将更精确地建模重力、碰撞、光照折射,最终演变为可交互的世界模拟。

2. 原生音频 + 视频联合生成

Veo 3 已率先实现音频-视频联合生成(对话、环境音、音效同步)。这标志着从"静默视频 + 后期配音"到"声画一体"的范式转变。

3. 实时生成

通过模型蒸馏、缓存机制和专用推理芯片,将 60 秒视频生成压缩到秒级,支持游戏和虚拟世界的实时渲染。

4. 角色一致性 (Character Consistency)

用 3-5 张参考照片即可在所有场景中保持一致的角色外观。LoRA/IP-Adapter 在视频域的应用正在快速成熟。

5. 多模态精确控制

结合骨骼动作捕捉、深度图、音频口型同步,实现导演级别的精确控制——"我要摄影机从这里走到那里,人物做这个动作"。


八、常见错误与避坑指南

错误 后果 正确做法
一次生成求完美 反复重试浪费成本 生成 10 版选 4 版拼接
提示词太笼统 结果不可控 结构化模板:主体+场景+运镜+光线+参数
忽略 negative prompt 出现不想要的元素 明确排除:blur, text, watermark
参考图有文字 视频中文字变形 参考图去除文字元素
只评估画质 忽略时序一致性 FVD + temporal_consistency 综合评估
单一提供商 风格单一 + 服务中断风险 多提供商混用 + 降级方案
不标注 AI 生成 法律和平台风险 元数据标注 + 平台声明
忽略版权 商用风险 确认模型许可条款

九、总结

AI 视频生成在 2024-2026 年经历了从"实验品"到"生产工具"的转变。DiT 架构的成熟、多模态控制的进步、音频联合生成的出现,让 AI 视频正在成为内容产业不可忽视的生产力。

但目前它仍然是辅助工具而非替代方案。最高效的工作方式不是指望 AI 一次生成完美结果,而是建立"生成-筛选-组合-后期"的迭代工作流,让 AI 和人各自发挥所长。

三条核心建议:

  1. 多提供商策略:不同场景用不同工具,没有"全能冠军"
  2. 提示词工程:结构化提示词是质量的第一杠杆
  3. 人机协作:AI 做素材生成,人做创意判断和精细控制

Maurice | maurice_wen@proton.me