多模态 Prompt 工程:图文音视频提示策略(2026 年版)
AI 导读
多模态 Prompt 工程:图文音视频提示策略(2026 年版) 1. 引言 多模态大模型(Multimodal LLMs)的快速发展正在重新定义 Prompt 工程的边界。传统的 Prompt 工程只处理纯文本输入和输出,而多模态 Prompt 工程需要同时操控文本、图像、音频、视频等多种信号的组合方式。 2024-2026 年间,GPT-4o、Claude 3.5/4、Gemini...
多模态 Prompt 工程:图文音视频提示策略(2026 年版)
1. 引言
多模态大模型(Multimodal LLMs)的快速发展正在重新定义 Prompt 工程的边界。传统的 Prompt 工程只处理纯文本输入和输出,而多模态 Prompt 工程需要同时操控文本、图像、音频、视频等多种信号的组合方式。
2024-2026 年间,GPT-4o、Claude 3.5/4、Gemini 2.0/2.5 等主流模型已经原生支持图像、音频甚至视频输入。如何为这些多模态模型编写高效的提示词,成为 AI 应用开发者必须掌握的核心技能。
2. 多模态能力矩阵
2.1 各模型的模态支持
| 能力 | GPT-4o | Claude 3.5/4 | Gemini 2.0/2.5 |
|---|---|---|---|
| 文本输入 | 支持 | 支持 | 支持 |
| 图像输入 | 支持 | 支持 | 支持 |
| 音频输入 | 支持(原生) | 不支持 | 支持(原生) |
| 视频输入 | 不支持 | 不支持 | 支持(原生) |
| PDF 输入 | 支持 | 支持(原生) | 支持 |
| 文本输出 | 支持 | 支持 | 支持 |
| 图像输出 | 支持(DALL-E) | 不支持 | 支持(Imagen) |
| 音频输出 | 支持(TTS) | 不支持 | 支持(TTS) |
| 视频输出 | 不支持 | 不支持 | 支持(Veo) |
2.2 多模态理解的层次
层次 1: 感知(Perception)
"这张图片里有什么?" → 物体识别、场景描述
层次 2: 理解(Understanding)
"这张图片传达什么情感?" → 语义理解、情感分析
层次 3: 推理(Reasoning)
"根据这张图表,明年的趋势是?" → 数据推理、预测
层次 4: 跨模态关联(Cross-modal Reasoning)
"这段音频的内容和这张图片有什么关系?" → 多模态融合
3. 图像 Prompt 策略
3.1 图像输入的基本原则
| 原则 | 说明 | 示例 |
|---|---|---|
| 明确任务 | 告诉模型要做什么 | "识别图中的建筑风格" |
| 指定关注区域 | 引导模型注意力 | "请关注图片左上角的文字" |
| 提供上下文 | 补充图片不能表达的信息 | "这是 2024 年 Q3 的销售报表" |
| 定义输出格式 | 结构化输出 | "以 JSON 格式返回每个物体的名称和位置" |
3.2 常见图像任务的 Prompt 模板
图像描述
基础版:
"请描述这张图片的内容。"
进阶版:
"请从以下维度描述这张图片:
1. 主体:图片中最显著的元素是什么?
2. 环境:拍摄环境/背景是什么?
3. 动作/状态:画面中发生了什么?
4. 氛围:整体氛围/情感基调是什么?
5. 技术:拍摄角度、光线、构图特点?"
OCR / 文字识别
"请识别并转录图片中的所有文字内容。
要求:
- 保持原始的排版结构(标题、段落、列表)
- 如果有表格,用 Markdown 表格格式输出
- 如果文字不清晰,标注 [难以辨认] 并给出最佳猜测
- 识别语言:中文和英文"
图表分析
"这是一张 [柱状图/折线图/饼图],请分析:
1. 数据概览:图表展示了什么数据?时间范围?
2. 关键发现:最突出的趋势或变化是什么?
3. 异常值:是否有异常的数据点?可能的原因?
4. 结论:基于数据,可以得出什么结论?
5. 数据提取:请以 CSV 格式提取图表中的数据"
UI 审查
"请分析这个移动应用截图的 UI 设计:
1. 信息层级:视觉层级是否清晰?用户能否快速找到主要操作?
2. 布局:间距、对齐是否一致?
3. 可访问性:文字大小是否可读?颜色对比度是否足够?
4. 交互暗示:可点击元素是否有明确的视觉提示?
5. 改进建议:给出 3 个具体的 UI 改进建议"
3.3 图像 Prompt 的高级技巧
多图对比
"我提供了两张图片。第一张是设计稿,第二张是实际实现的截图。
请逐项对比:
1. 布局差异:哪些元素的位置发生了偏移?
2. 字体差异:字号、字重是否一致?
3. 颜色差异:主色调和辅助色是否匹配?
4. 间距差异:内外边距是否符合设计稿?
5. 遗漏元素:是否有设计稿中有但实现中缺失的元素?
请用表格格式输出对比结果。"
图像 + 文本的上下文互补
"[图片:一份手写的会议纪要]
补充信息:
- 这是 2026 年 2 月 15 日的产品规划会议
- 参会人:产品经理、技术负责人、设计师
- 语言:中英文混合
任务:
1. 转录全部手写内容
2. 提取行动项(Action Items)
3. 标注每个行动项的负责人和截止日期
4. 以结构化 Markdown 格式输出会议纪要"
分辨率与裁切策略
| 策略 | 说明 | 适用场景 |
|---|---|---|
| 全图输入 | 不裁切,直接输入 | 场景理解、整体描述 |
| 关注区域裁切 | 裁切关键区域后输入 | 文字识别、细节分析 |
| 多尺度输入 | 同一图片的全局 + 局部 | 复杂图表、密集信息 |
| 标注输入 | 在图上画框/标注后输入 | 指定分析区域 |
4. 音频 Prompt 策略
4.1 音频理解的能力范围
| 能力 | GPT-4o | Gemini 2.0 |
|---|---|---|
| 语音转文字 | 优秀(Whisper 级) | 优秀 |
| 语言识别 | 支持 50+ 语言 | 支持 100+ 语言 |
| 说话人识别 | 基础 | 支持 |
| 情感识别 | 支持 | 支持 |
| 环境声音识别 | 有限 | 支持 |
| 音乐理解 | 有限 | 支持 |
| 非语音声音 | 有限 | 良好 |
4.2 音频 Prompt 模板
会议转录
"请转录这段会议录音,并完成以下处理:
1. 说话人分离:标注不同说话人(Speaker 1, Speaker 2...)
2. 时间戳:每段话标注起止时间
3. 去口头禅:去除"嗯"、"那个"等口头禅
4. 专业术语:保留技术术语的原始表述
5. 会议摘要:最后输出 5 句话的会议摘要
6. 行动项:提取明确的待办事项"
语音情感分析
"请分析这段语音的情感特征:
1. 整体情绪:积极/消极/中性
2. 情绪变化:在哪些时间点情绪发生了明显变化?
3. 语气特征:语速、语调、停顿
4. 置信度:你对情感判断的确信程度(高/中/低)
5. 上下文推断:说话人可能处于什么情境?"
音频 + 文本联合分析
"我提供了一段客服通话录音和对应的工单记录。
工单信息:
- 工单号:#12345
- 客户投诉:产品质量问题
- 处理状态:待解决
请分析:
1. 客户的核心诉求是什么?
2. 客服的处理是否到位?
3. 录音中提到了哪些工单未记录的信息?
4. 建议的后续处理方案是什么?"
5. 视频 Prompt 策略
5.1 视频理解的独特挑战
视频是图像和音频的时间序列组合,理解视频需要处理:
- 时间维度:事件的顺序、因果关系
- 运动理解:物体移动、动作识别
- 场景变化:镜头切换、场景过渡
- 音视频同步:画面与声音的对应关系
5.2 Gemini 视频分析 Prompt
Gemini 2.0/2.5 是目前唯一原生支持视频输入的主流模型。
视频内容理解
"请分析这段视频(2 分钟),提供以下信息:
1. 内容概述:
- 视频主题是什么?
- 总共有几个场景/镜头?
2. 时间线:
按时间顺序列出关键事件:
[0:00-0:15] 事件描述
[0:15-0:30] 事件描述
...
3. 视觉元素:
- 主要人物/物体
- 文字叠加(字幕、标题)
- 品牌/标志
4. 音频元素:
- 旁白/对话内容
- 背景音乐类型
- 音效
5. 生产质量:
- 拍摄质量评估
- 剪辑节奏
- 整体专业度"
视频对比分析
"我提供了两段产品演示视频。请对比分析:
1. 功能展示:两个产品分别展示了哪些功能?
2. 演示风格:演示方式有什么不同?
3. 用户体验暗示:从演示中推断,哪个产品更易用?
4. 信息密度:哪段视频在相同时间内传达了更多信息?
5. 总结:作为潜在用户,你会更倾向哪个产品?为什么?"
5.3 帧采样策略
当模型不直接支持视频或视频过长时,需要将视频转换为图像序列:
| 策略 | 方法 | 适用场景 | 帧数 |
|---|---|---|---|
| 均匀采样 | 每 N 秒取 1 帧 | 通用内容理解 | 10-20 帧 |
| 关键帧提取 | 场景切换时取帧 | 叙事性视频 | 5-15 帧 |
| 运动密集采样 | 运动剧烈时加密采样 | 动作/体育视频 | 20-50 帧 |
| 首尾 + 中间 | 首帧 + 末帧 + 中间帧 | 快速概览 | 3-5 帧 |
# 帧采样示例(使用 FFmpeg + GPT-4o)
import subprocess
def extract_frames(video_path, interval=5):
"""每 interval 秒提取一帧"""
subprocess.run([
"ffmpeg", "-i", video_path,
"-vf", f"fps=1/{interval}",
"-q:v", "2",
"frame_%04d.jpg"
])
6. 跨模态 Prompt 策略
6.1 图文联合推理
"[图片:一栋建筑的外观照片]
文本信息:
这栋建筑建于 1920 年代,位于上海外滩。它经历了多次翻修,
目前作为一家精品酒店运营。
综合分析任务:
1. 建筑风格鉴定:结合图片外观和文字中的建造年代,判断建筑风格
2. 历史推断:建筑外观是否有翻修痕迹?哪些部分可能是原始的?
3. 商业评估:作为精品酒店,建筑外观是否传达了合适的品牌形象?
4. 保护建议:从建筑保护角度,有哪些需要关注的点?"
6.2 多模态 Few-shot
"我将给你一系列产品图片和对应的营销文案示例。
请学习这种风格,然后为最后一张产品图片生成文案。
示例 1:
[图片:一款极简设计的台灯]
文案:光,是家的温度。L-100 台灯用 0.8mm 铝合金勾勒出
最纯粹的光线,让每个夜晚都值得期待。
示例 2:
[图片:一款皮质笔记本]
文案:灵感不等人。Artisan 笔记本的意大利全粒面皮革,
承载你每一个稍纵即逝的想法。
请为以下产品生成文案:
[图片:一款木质音箱]"
6.3 多模态 Chain-of-Thought
"请一步步分析这张交通事故现场照片和这段目击者录音:
[图片:交通事故现场]
[音频:目击者证词]
分析步骤:
1. 视觉证据:从照片中识别车辆位置、损坏情况、路面标志
2. 音频证据:从录音中提取目击者描述的事件顺序
3. 交叉验证:视觉证据和音频证据是否一致?有无矛盾?
4. 推断:基于所有证据,最可能的事故经过是什么?
5. 待确认:还需要哪些额外信息才能做出最终判断?"
7. 模态特定的优化技巧
7.1 图像优化
| 技巧 | 说明 | 效果 |
|---|---|---|
| 压缩策略 | 保持清晰度的同时减小文件大小 | 降低成本和延迟 |
| 多图排序 | 重要的图片放在前面 | 模型注意力分配 |
| 文字标注 | 在图片上添加箭头/框线 | 引导模型关注特定区域 |
| 分辨率匹配 | 不同任务选择不同分辨率 | 平衡质量和成本 |
7.2 音频优化
| 技巧 | 说明 | 效果 |
|---|---|---|
| 降噪预处理 | 去除背景噪音 | 提高转录准确率 |
| 分段输入 | 长音频切分为 5-10 分钟段 | 避免信息丢失 |
| 采样率 | 语音用 16kHz,音乐用 44.1kHz | 平衡质量和大小 |
| 声道选择 | 如果只有单声道有用内容 | 减少干扰 |
7.3 视频优化
| 技巧 | 说明 | 效果 |
|---|---|---|
| 关键帧提取 | 用场景检测算法提取关键帧 | 减少冗余信息 |
| 音视频分离 | 对音频和视频分别分析后综合 | 更深入的分析 |
| 时间戳标注 | 关键帧附带时间戳 | 便于定位 |
| 降低分辨率 | 720p 通常足够用于内容理解 | 减少 token 消耗 |
8. 多模态 Prompt 的评估
8.1 评估维度
| 维度 | 说明 | 评估方法 |
|---|---|---|
| 感知准确性 | 模型是否正确识别了图像/音频中的内容 | 人工标注对比 |
| 推理正确性 | 跨模态推理是否合理 | 专家评审 |
| 完整性 | 是否遗漏了重要信息 | 检查清单覆盖率 |
| 幻觉率 | 是否生成了图像/音频中不存在的信息 | 事实核查 |
| 格式合规 | 输出是否符合要求的格式 | 自动化检查 |
8.2 常见失败模式
| 失败模式 | 原因 | 缓解策略 |
|---|---|---|
| 视觉幻觉 | 模型"看到"不存在的内容 | 增加"如果不确定请说明"的指令 |
| 文字误读 | OCR 错误 | 要求输出置信度 |
| 时序混乱 | 视频帧顺序理解错误 | 添加时间戳标注 |
| 模态偏差 | 模型过度依赖某一模态 | 明确要求综合分析 |
| 分辨率不足 | 图像太小导致细节丢失 | 使用高分辨率输入 |
9. 实战应用案例
9.1 电商商品分析
"[图片:商品主图 + 详情页截图(3-5 张)]
请从以下维度分析这个商品:
1. 品类判断:商品类目、材质、规格
2. 卖点提取:3 个核心卖点
3. 定价评估:基于视觉质感和品牌定位
4. SEO 关键词:提取 10 个适合搜索优化的关键词
5. 竞品参考:这个商品最可能与哪些品牌竞争?
6. 改进建议:主图和详情页的视觉优化方向"
9.2 教育内容分析
"[视频:一段 10 分钟的数学教学视频]
请分析这段教学视频的质量:
1. 知识点覆盖:涉及了哪些数学概念?
2. 讲解清晰度:难点是否有充分的解释和示例?
3. 视觉辅助:板书/动画/图表是否有效?
4. 互动性:是否有提问、停顿等互动设计?
5. 节奏评估:是否有节奏过快或过慢的部分?
6. 学生友好度:目标受众年级?难度是否匹配?"
10. 趋势与展望
10.1 实时多模态交互
GPT-4o 和 Gemini Live 已经支持实时音频+视频交互。这意味着 Prompt 工程需要从"一次性输入-输出"转向"持续交互流"的设计。
10.2 模态生成的 Prompt 控制
随着 DALL-E 3、Imagen 3、Sora、Veo 等生成模型的成熟,如何用 Prompt 精确控制生成结果(图像风格、视频运镜、音频情感)成为新的核心能力。
10.3 Agentic 多模态
多模态 Agent 能够"看"屏幕、"听"语音、操作 GUI。Claude Computer Use、GPT-4o 的实时 API 正在将多模态从"理解"推向"行动"。
11. 结论
多模态 Prompt 工程的核心原则:
- 明确每个模态的角色:文本做指令,图像做证据,音频做上下文
- 跨模态引导:告诉模型如何综合不同模态的信息
- 模态特定优化:每种模态有自己的预处理和 Prompt 策略
- 评估多模态幻觉:比纯文本更容易出现"看到不存在的东西"
- 成本感知:多模态输入的 token 消耗显著高于纯文本
掌握多模态 Prompt 工程,是进入"AI 原生应用"时代的必备技能。
Maurice | maurice_wen@proton.me