多模态 Prompt 工程:图文音视频提示策略(2026 年版)

1. 引言

多模态大模型(Multimodal LLMs)的快速发展正在重新定义 Prompt 工程的边界。传统的 Prompt 工程只处理纯文本输入和输出,而多模态 Prompt 工程需要同时操控文本、图像、音频、视频等多种信号的组合方式。

2024-2026 年间,GPT-4o、Claude 3.5/4、Gemini 2.0/2.5 等主流模型已经原生支持图像、音频甚至视频输入。如何为这些多模态模型编写高效的提示词,成为 AI 应用开发者必须掌握的核心技能。

2. 多模态能力矩阵

2.1 各模型的模态支持

能力 GPT-4o Claude 3.5/4 Gemini 2.0/2.5
文本输入 支持 支持 支持
图像输入 支持 支持 支持
音频输入 支持(原生) 不支持 支持(原生)
视频输入 不支持 不支持 支持(原生)
PDF 输入 支持 支持(原生) 支持
文本输出 支持 支持 支持
图像输出 支持(DALL-E) 不支持 支持(Imagen)
音频输出 支持(TTS) 不支持 支持(TTS)
视频输出 不支持 不支持 支持(Veo)

2.2 多模态理解的层次

层次 1: 感知(Perception)
  "这张图片里有什么?" → 物体识别、场景描述

层次 2: 理解(Understanding)
  "这张图片传达什么情感?" → 语义理解、情感分析

层次 3: 推理(Reasoning)
  "根据这张图表,明年的趋势是?" → 数据推理、预测

层次 4: 跨模态关联(Cross-modal Reasoning)
  "这段音频的内容和这张图片有什么关系?" → 多模态融合

3. 图像 Prompt 策略

3.1 图像输入的基本原则

原则 说明 示例
明确任务 告诉模型要做什么 "识别图中的建筑风格"
指定关注区域 引导模型注意力 "请关注图片左上角的文字"
提供上下文 补充图片不能表达的信息 "这是 2024 年 Q3 的销售报表"
定义输出格式 结构化输出 "以 JSON 格式返回每个物体的名称和位置"

3.2 常见图像任务的 Prompt 模板

图像描述

基础版:
"请描述这张图片的内容。"

进阶版:
"请从以下维度描述这张图片:
1. 主体:图片中最显著的元素是什么?
2. 环境:拍摄环境/背景是什么?
3. 动作/状态:画面中发生了什么?
4. 氛围:整体氛围/情感基调是什么?
5. 技术:拍摄角度、光线、构图特点?"

OCR / 文字识别

"请识别并转录图片中的所有文字内容。
要求:
- 保持原始的排版结构(标题、段落、列表)
- 如果有表格,用 Markdown 表格格式输出
- 如果文字不清晰,标注 [难以辨认] 并给出最佳猜测
- 识别语言:中文和英文"

图表分析

"这是一张 [柱状图/折线图/饼图],请分析:
1. 数据概览:图表展示了什么数据?时间范围?
2. 关键发现:最突出的趋势或变化是什么?
3. 异常值:是否有异常的数据点?可能的原因?
4. 结论:基于数据,可以得出什么结论?
5. 数据提取:请以 CSV 格式提取图表中的数据"

UI 审查

"请分析这个移动应用截图的 UI 设计:
1. 信息层级:视觉层级是否清晰?用户能否快速找到主要操作?
2. 布局:间距、对齐是否一致?
3. 可访问性:文字大小是否可读?颜色对比度是否足够?
4. 交互暗示:可点击元素是否有明确的视觉提示?
5. 改进建议:给出 3 个具体的 UI 改进建议"

3.3 图像 Prompt 的高级技巧

多图对比

"我提供了两张图片。第一张是设计稿,第二张是实际实现的截图。
请逐项对比:
1. 布局差异:哪些元素的位置发生了偏移?
2. 字体差异:字号、字重是否一致?
3. 颜色差异:主色调和辅助色是否匹配?
4. 间距差异:内外边距是否符合设计稿?
5. 遗漏元素:是否有设计稿中有但实现中缺失的元素?
请用表格格式输出对比结果。"

图像 + 文本的上下文互补

"[图片:一份手写的会议纪要]

补充信息:
- 这是 2026 年 2 月 15 日的产品规划会议
- 参会人:产品经理、技术负责人、设计师
- 语言:中英文混合

任务:
1. 转录全部手写内容
2. 提取行动项(Action Items)
3. 标注每个行动项的负责人和截止日期
4. 以结构化 Markdown 格式输出会议纪要"

分辨率与裁切策略

策略 说明 适用场景
全图输入 不裁切,直接输入 场景理解、整体描述
关注区域裁切 裁切关键区域后输入 文字识别、细节分析
多尺度输入 同一图片的全局 + 局部 复杂图表、密集信息
标注输入 在图上画框/标注后输入 指定分析区域

4. 音频 Prompt 策略

4.1 音频理解的能力范围

能力 GPT-4o Gemini 2.0
语音转文字 优秀(Whisper 级) 优秀
语言识别 支持 50+ 语言 支持 100+ 语言
说话人识别 基础 支持
情感识别 支持 支持
环境声音识别 有限 支持
音乐理解 有限 支持
非语音声音 有限 良好

4.2 音频 Prompt 模板

会议转录

"请转录这段会议录音,并完成以下处理:
1. 说话人分离:标注不同说话人(Speaker 1, Speaker 2...)
2. 时间戳:每段话标注起止时间
3. 去口头禅:去除"嗯"、"那个"等口头禅
4. 专业术语:保留技术术语的原始表述
5. 会议摘要:最后输出 5 句话的会议摘要
6. 行动项:提取明确的待办事项"

语音情感分析

"请分析这段语音的情感特征:
1. 整体情绪:积极/消极/中性
2. 情绪变化:在哪些时间点情绪发生了明显变化?
3. 语气特征:语速、语调、停顿
4. 置信度:你对情感判断的确信程度(高/中/低)
5. 上下文推断:说话人可能处于什么情境?"

音频 + 文本联合分析

"我提供了一段客服通话录音和对应的工单记录。

工单信息:
- 工单号:#12345
- 客户投诉:产品质量问题
- 处理状态:待解决

请分析:
1. 客户的核心诉求是什么?
2. 客服的处理是否到位?
3. 录音中提到了哪些工单未记录的信息?
4. 建议的后续处理方案是什么?"

5. 视频 Prompt 策略

5.1 视频理解的独特挑战

视频是图像和音频的时间序列组合,理解视频需要处理:

  • 时间维度:事件的顺序、因果关系
  • 运动理解:物体移动、动作识别
  • 场景变化:镜头切换、场景过渡
  • 音视频同步:画面与声音的对应关系

5.2 Gemini 视频分析 Prompt

Gemini 2.0/2.5 是目前唯一原生支持视频输入的主流模型。

视频内容理解

"请分析这段视频(2 分钟),提供以下信息:

1. 内容概述:
   - 视频主题是什么?
   - 总共有几个场景/镜头?

2. 时间线:
   按时间顺序列出关键事件:
   [0:00-0:15] 事件描述
   [0:15-0:30] 事件描述
   ...

3. 视觉元素:
   - 主要人物/物体
   - 文字叠加(字幕、标题)
   - 品牌/标志

4. 音频元素:
   - 旁白/对话内容
   - 背景音乐类型
   - 音效

5. 生产质量:
   - 拍摄质量评估
   - 剪辑节奏
   - 整体专业度"

视频对比分析

"我提供了两段产品演示视频。请对比分析:

1. 功能展示:两个产品分别展示了哪些功能?
2. 演示风格:演示方式有什么不同?
3. 用户体验暗示:从演示中推断,哪个产品更易用?
4. 信息密度:哪段视频在相同时间内传达了更多信息?
5. 总结:作为潜在用户,你会更倾向哪个产品?为什么?"

5.3 帧采样策略

当模型不直接支持视频或视频过长时,需要将视频转换为图像序列:

策略 方法 适用场景 帧数
均匀采样 每 N 秒取 1 帧 通用内容理解 10-20 帧
关键帧提取 场景切换时取帧 叙事性视频 5-15 帧
运动密集采样 运动剧烈时加密采样 动作/体育视频 20-50 帧
首尾 + 中间 首帧 + 末帧 + 中间帧 快速概览 3-5 帧
# 帧采样示例(使用 FFmpeg + GPT-4o)
import subprocess

def extract_frames(video_path, interval=5):
    """每 interval 秒提取一帧"""
    subprocess.run([
        "ffmpeg", "-i", video_path,
        "-vf", f"fps=1/{interval}",
        "-q:v", "2",
        "frame_%04d.jpg"
    ])

6. 跨模态 Prompt 策略

6.1 图文联合推理

"[图片:一栋建筑的外观照片]

文本信息:
这栋建筑建于 1920 年代,位于上海外滩。它经历了多次翻修,
目前作为一家精品酒店运营。

综合分析任务:
1. 建筑风格鉴定:结合图片外观和文字中的建造年代,判断建筑风格
2. 历史推断:建筑外观是否有翻修痕迹?哪些部分可能是原始的?
3. 商业评估:作为精品酒店,建筑外观是否传达了合适的品牌形象?
4. 保护建议:从建筑保护角度,有哪些需要关注的点?"

6.2 多模态 Few-shot

"我将给你一系列产品图片和对应的营销文案示例。
请学习这种风格,然后为最后一张产品图片生成文案。

示例 1:
[图片:一款极简设计的台灯]
文案:光,是家的温度。L-100 台灯用 0.8mm 铝合金勾勒出
      最纯粹的光线,让每个夜晚都值得期待。

示例 2:
[图片:一款皮质笔记本]
文案:灵感不等人。Artisan 笔记本的意大利全粒面皮革,
      承载你每一个稍纵即逝的想法。

请为以下产品生成文案:
[图片:一款木质音箱]"

6.3 多模态 Chain-of-Thought

"请一步步分析这张交通事故现场照片和这段目击者录音:

[图片:交通事故现场]
[音频:目击者证词]

分析步骤:
1. 视觉证据:从照片中识别车辆位置、损坏情况、路面标志
2. 音频证据:从录音中提取目击者描述的事件顺序
3. 交叉验证:视觉证据和音频证据是否一致?有无矛盾?
4. 推断:基于所有证据,最可能的事故经过是什么?
5. 待确认:还需要哪些额外信息才能做出最终判断?"

7. 模态特定的优化技巧

7.1 图像优化

技巧 说明 效果
压缩策略 保持清晰度的同时减小文件大小 降低成本和延迟
多图排序 重要的图片放在前面 模型注意力分配
文字标注 在图片上添加箭头/框线 引导模型关注特定区域
分辨率匹配 不同任务选择不同分辨率 平衡质量和成本

7.2 音频优化

技巧 说明 效果
降噪预处理 去除背景噪音 提高转录准确率
分段输入 长音频切分为 5-10 分钟段 避免信息丢失
采样率 语音用 16kHz,音乐用 44.1kHz 平衡质量和大小
声道选择 如果只有单声道有用内容 减少干扰

7.3 视频优化

技巧 说明 效果
关键帧提取 用场景检测算法提取关键帧 减少冗余信息
音视频分离 对音频和视频分别分析后综合 更深入的分析
时间戳标注 关键帧附带时间戳 便于定位
降低分辨率 720p 通常足够用于内容理解 减少 token 消耗

8. 多模态 Prompt 的评估

8.1 评估维度

维度 说明 评估方法
感知准确性 模型是否正确识别了图像/音频中的内容 人工标注对比
推理正确性 跨模态推理是否合理 专家评审
完整性 是否遗漏了重要信息 检查清单覆盖率
幻觉率 是否生成了图像/音频中不存在的信息 事实核查
格式合规 输出是否符合要求的格式 自动化检查

8.2 常见失败模式

失败模式 原因 缓解策略
视觉幻觉 模型"看到"不存在的内容 增加"如果不确定请说明"的指令
文字误读 OCR 错误 要求输出置信度
时序混乱 视频帧顺序理解错误 添加时间戳标注
模态偏差 模型过度依赖某一模态 明确要求综合分析
分辨率不足 图像太小导致细节丢失 使用高分辨率输入

9. 实战应用案例

9.1 电商商品分析

"[图片:商品主图 + 详情页截图(3-5 张)]

请从以下维度分析这个商品:
1. 品类判断:商品类目、材质、规格
2. 卖点提取:3 个核心卖点
3. 定价评估:基于视觉质感和品牌定位
4. SEO 关键词:提取 10 个适合搜索优化的关键词
5. 竞品参考:这个商品最可能与哪些品牌竞争?
6. 改进建议:主图和详情页的视觉优化方向"

9.2 教育内容分析

"[视频:一段 10 分钟的数学教学视频]

请分析这段教学视频的质量:
1. 知识点覆盖:涉及了哪些数学概念?
2. 讲解清晰度:难点是否有充分的解释和示例?
3. 视觉辅助:板书/动画/图表是否有效?
4. 互动性:是否有提问、停顿等互动设计?
5. 节奏评估:是否有节奏过快或过慢的部分?
6. 学生友好度:目标受众年级?难度是否匹配?"

10. 趋势与展望

10.1 实时多模态交互

GPT-4o 和 Gemini Live 已经支持实时音频+视频交互。这意味着 Prompt 工程需要从"一次性输入-输出"转向"持续交互流"的设计。

10.2 模态生成的 Prompt 控制

随着 DALL-E 3、Imagen 3、Sora、Veo 等生成模型的成熟,如何用 Prompt 精确控制生成结果(图像风格、视频运镜、音频情感)成为新的核心能力。

10.3 Agentic 多模态

多模态 Agent 能够"看"屏幕、"听"语音、操作 GUI。Claude Computer Use、GPT-4o 的实时 API 正在将多模态从"理解"推向"行动"。

11. 结论

多模态 Prompt 工程的核心原则:

  1. 明确每个模态的角色:文本做指令,图像做证据,音频做上下文
  2. 跨模态引导:告诉模型如何综合不同模态的信息
  3. 模态特定优化:每种模态有自己的预处理和 Prompt 策略
  4. 评估多模态幻觉:比纯文本更容易出现"看到不存在的东西"
  5. 成本感知:多模态输入的 token 消耗显著高于纯文本

掌握多模态 Prompt 工程,是进入"AI 原生应用"时代的必备技能。


Maurice | maurice_wen@proton.me