AI视频生成的Prompt工程

引言

视频 Prompt 工程与图像 Prompt 有本质差异:视频不仅需要描述空间构图,还需要描述时间维度上的变化——运动、节奏、镜头语言。一个优秀的视频 Prompt 是导演语言、摄影语言和文学描述的融合体。本文系统梳理视频 Prompt 的核心要素、结构框架和实战技巧。

一、视频 Prompt 的六维结构

一个完整的视频 Prompt 应当覆盖六个维度:

┌─────────────────────────────────────────────┐
│              视频 Prompt 六维模型             │
├─────────────────────────────────────────────┤
│  1. 主体(Subject)    — 谁/什么在画面中      │
│  2. 动作(Action)     — 在做什么             │
│  3. 场景(Setting)    — 在哪里               │
│  4. 镜头(Camera)     — 怎么拍               │
│  5. 风格(Style)      — 什么美学             │
│  6. 氛围(Mood)       — 什么情绪             │
└─────────────────────────────────────────────┘

1.1 维度权重分配

不同平台对各维度的敏感度不同:

维度 Sora Veo 2 Kling Runway
主体描述
动作描述 极高 中(靠 Motion Brush)
场景细节 极高
镜头语言 极高
风格关键词
氛围/情绪

二、镜头语言词汇表

2.1 景别(Shot Size)

镜头景别是视频 Prompt 中最基础也最重要的控制参数:

景别 英文 效果 适用场景
远景 Extreme Wide Shot (EWS) 展示环境全貌,人物极小 风景、建筑、开场建立
全景 Wide Shot (WS) 人物完整入画,环境清晰 场景建立、动作全貌
中景 Medium Shot (MS) 腰部以上 对话、日常动作
中近景 Medium Close-up (MCU) 胸部以上 采访、情感表达
近景 Close-up (CU) 面部填满画面 情感、反应、细节
特写 Extreme Close-up (ECU) 眼睛/嘴唇/手指 情绪高潮、质感展示

Prompt 示例

# 远景 → 近景 的心理递进
EWS: "Vast desert landscape, a lone figure walking toward camera,
      golden hour, drone shot pulling back to reveal endless dunes"

CU:  "Close-up of a woman's face, tears streaming down her cheeks,
      soft backlighting creating a halo effect, shallow depth of field"

2.2 镜头运动(Camera Movement)

运动类型 英文 描述 情绪效果
推镜头 Push in / Dolly in 相机向前移动接近主体 紧张、聚焦、揭示
拉镜头 Pull out / Dolly out 相机向后移动远离主体 孤独、揭示全貌
横移 Tracking shot / Dolly 相机水平跟随主体 跟随、叙事推进
摇镜头 Pan (水平) / Tilt (垂直) 相机原地旋转 环境展示、引导视线
升降 Crane / Boom 相机上升或下降 宏大、史诗感
手持 Handheld 轻微晃动的主观视角 真实、紧迫、纪录片感
稳定器 Steadicam 平滑的长镜头跟随 沉浸、电影级
环绕 Orbit / 360 围绕主体旋转 强调、戏剧性
无人机 Drone shot 航拍视角 壮阔、自由
俯冲 Swooping 从高处快速下降 冲击力、动作感

Prompt 中的运动叠加

# 单一运动
"Slow dolly in toward a vintage typewriter on a desk"

# 复合运动
"Camera starts with a high crane shot looking down at a busy intersection,
 then slowly descends and transitions into a tracking shot following
 a yellow taxi through the streets"

# 运动节奏
"Rapid handheld camera following a parkour runner through narrow alleyways,
 sudden stop and slow push-in on his face as he catches his breath"

2.3 镜头角度(Camera Angle)

角度 英文 心理暗示
平视 Eye level 中性、客观
仰拍 Low angle 权力、威严、高大
俯拍 High angle 渺小、脆弱
鸟瞰 Bird's eye view 全局、上帝视角
虫眼视角 Worm's eye view 极端仰视、戏剧性
荷兰角 Dutch angle / Canted 不安、紧张、异常
POV Point of view 主观、沉浸
OTS Over the shoulder 对话、叙事

三、Prompt 结构模板

3.1 基础模板

[镜头/景别], [主体描述], [动作/事件], [场景/环境],
[光线/时间], [风格/美学], [氛围/情绪]

示例

Medium shot, a young chef in white uniform,
skillfully tossing vegetables in a wok with flames rising,
inside a bustling restaurant kitchen with steam and warm lighting,
golden hour light streaming through windows,
cinematic, shot on 35mm film,
energetic and passionate atmosphere

3.2 叙事型模板(适合长视频)

[开场状态] → [触发事件] → [发展过程] → [结束状态]

示例

A serene mountain lake at dawn, mist hovering over still water.
A single stone drops into the center, creating expanding ripples.
The ripples grow larger, disturbing the reflections of pine trees.
Camera slowly pulls back to reveal a child standing at the water's edge,
watching the ripples reach the shore. Cinematic, contemplative mood.

3.3 技术控制模板(适合精确控制)

Shot: [景别 + 角度 + 运动]
Subject: [主体 + 着装 + 表情]
Action: [动作 + 速度 + 方向]
Environment: [地点 + 天气 + 时间]
Lighting: [光源 + 色温 + 方向]
Style: [电影参考 + 色彩基调 + 后期风格]
Technical: [帧率 + 景深 + 镜头类型]

四、风格控制关键词

4.1 电影风格

风格 关键词组合 特征
好莱坞大片 cinematic, anamorphic, film grain, shallow DOF 宽银幕、浅景深
独立电影 indie film, natural lighting, handheld, muted colors 自然、真实
黑色电影 film noir, high contrast, dramatic shadows, venetian blinds 高对比、阴影
赛博朋克 cyberpunk, neon lights, rain-slicked streets, holographic 霓虹、未来城市
韦斯安德森 Wes Anderson style, symmetrical, pastel colors, centered framing 对称、粉彩
王家卫 Wong Kar-wai style, blurred motion, saturated colors, neon 暧昧、色彩浓烈

4.2 技术参数模拟

# 模拟不同摄影机
"Shot on ARRI Alexa, natural skin tones, wide dynamic range"
"Shot on RED Komodo, sharp detail, slightly cool color science"
"Shot on 16mm Bolex, heavy grain, vintage color palette"
"Shot on iPhone, vertical format, casual framing"

# 模拟不同镜头
"Shot with 85mm f/1.4 lens, creamy bokeh, shallow depth of field"
"Shot with 24mm wide angle, slight barrel distortion, deep focus"
"Shot with 200mm telephoto, compressed perspective, foreground blur"
"Anamorphic lens flares, oval bokeh, 2.39:1 aspect ratio"

4.3 光线控制

# 自然光
"Golden hour, warm backlight, long shadows"
"Overcast sky, soft diffused lighting, no harsh shadows"
"Blue hour, cool ambient light, city lights emerging"
"Harsh midday sun, strong shadows, high contrast"

# 人工光
"Single key light from above, dramatic Rembrandt lighting"
"Neon signs casting colored reflections on wet pavement"
"Practical lights only, warm tungsten bulbs, cozy atmosphere"
"Studio lighting, three-point setup, clean and professional"

五、常见问题与解决方案

5.1 运动模糊与抖动

问题:生成的视频运动不自然,出现果冻效应或过度模糊。

解决

# 避免
"Fast camera movement"  ← 太笼统

# 推荐
"Smooth steadicam tracking shot at walking pace,
 24fps cinematic motion blur"  ← 明确速度和技术参数

5.2 人物一致性

问题:在较长视频中,人物外观发生变化(衣服颜色改变、面部特征漂移)。

解决

# 在 prompt 中强化人物特征锚点
"A woman with shoulder-length black hair, wearing a red leather jacket
 and round gold-rimmed glasses, consistent appearance throughout"

# 使用 Image-to-Video 模式,以参考图固定外观

5.3 物理不合理

问题:物体穿透、液体行为异常、重力错误。

解决

# 避免物理复杂场景的过度描述
# 不要:
"Water splashing in slow motion while a ball bounces and a bird flies"

# 推荐:聚焦单一物理现象
"Close-up of a single water droplet falling into a still pool,
 creating concentric ripples, shot at 120fps slow motion"

5.4 文字渲染

问题:AI 视频模型普遍无法正确渲染文字。

解决

  • 后期叠加文字(推荐)
  • 使用实物道具(书本、招牌)作为参考图输入
  • 在 Prompt 中避免要求精确文字

六、平台特异性技巧

6.1 Sora 专用技巧

# Sora 响应自然语言叙事,偏好故事性描述
"A grandmother teaches her granddaughter to make dumplings
 in a warm kitchen. Flour dusts the wooden table. The grandmother's
 hands move with practiced ease as the child watches intently.
 Steam rises from a bamboo steamer in the background."

6.2 Kling 专用技巧

# Kling 对中文理解更好,可直接用中文 prompt
"一位穿着旗袍的女子在苏州园林中撑伞漫步,
 细雨纷飞,石板路上倒映着红墙绿瓦,
 远处隐约传来古琴声,
 电影级画面,浅景深,暖色调"

6.3 Runway 专用技巧

# Runway 依赖 Motion Brush 做精确控制
# 文本 prompt 保持简洁,重点控制静态构图
"A still life of flowers on a windowsill,
 warm afternoon light, painted in oil"
# 然后用 Motion Brush 指定:
# - 花瓣区域:轻微摇摆
# - 窗帘区域:缓慢飘动
# - 光线区域:微妙变化

七、Prompt 工程工作流

7.1 迭代优化流程

第一轮:基础描述 → 生成 → 评估主体/动作是否正确
    ↓
第二轮:加入镜头语言 → 生成 → 评估构图/运动是否到位
    ↓
第三轮:加入风格/氛围 → 生成 → 评估整体美感
    ↓
第四轮:微调参数 → 生成 → 选出最佳结果
    ↓
后期:剪辑 + 调色 + 音频 → 最终成品

7.2 Prompt 版本管理

{
  "project": "品牌宣传片",
  "scene": "03_产品展示",
  "version": "v4",
  "prompt": "Extreme close-up of a luxury watch...",
  "platform": "veo2",
  "settings": {
    "aspect_ratio": "16:9",
    "duration": "8s",
    "seed": 42
  },
  "score": 8.5,
  "notes": "v3 手部有畸变,v4 用 ECU 避开手部"
}

7.3 Negative Prompt 策略

# 通用 Negative Prompt
"blurry, low quality, distorted, deformed, watermark, text overlay,
 flickering, jittery, abrupt cuts, morphing artifacts,
 unnatural skin, extra fingers, missing limbs"

# 场景特定
# 人物场景追加:
"cross-eyed, asymmetric face, uncanny valley"

# 风景场景追加:
"oversaturated, HDR artifacts, lens distortion"

八、进阶:多镜头脚本编排

对于多镜头视频项目,Prompt 工程需要升级为"视频脚本"级别:

## 场景 1:开场(5s)
镜头:Drone shot, slowly descending
画面:日出时分的城市天际线
运动:从高空缓慢降落至街道层面
音频提示:环境白噪音 → 城市苏醒的声音

## 场景 2:人物介绍(5s)
镜头:Medium shot, tracking
画面:主角骑自行车穿过老城区
运动:侧面跟拍,背景虚化
音频提示:自行车链条声、晨风

## 场景 3:到达(5s)
镜头:Wide shot → Push in
画面:主角停车,走入咖啡店
运动:从全景推到中景
音频提示:门铃声、咖啡机声

总结

视频 Prompt 工程的核心在于将导演的视觉语言转化为 AI 可理解的文本描述。掌握景别、运动、角度的专业词汇,建立结构化的 Prompt 模板,并通过迭代优化逐步逼近理想效果。随着模型能力的提升,Prompt 的表达空间将越来越大,从"描述画面"走向"编排叙事"。


Maurice | maurice_wen@proton.me