多模态大模型技术演进:从GPT-4V到Gemini 2
原创
灵阙教研团队
A 推荐 进阶 |
约 8 分钟阅读
更新于 2026-02-28 AI 导读
多模态大模型技术演进:从GPT-4V到Gemini 2 多模态是大模型从"文本专家"走向"通用智能"的关键一步。本文梳理多模态大模型的架构演进、能力边界与技术挑战,从GPT-4V开启商用多模态时代到Gemini 2实现原生多模态融合的完整技术路径。 一、多模态大模型发展脉络 1.1 关键里程碑 时间 模型 关键突破 2021.01 DALL-E 文本到图像生成 2021.01 CLIP...
多模态大模型技术演进:从GPT-4V到Gemini 2
多模态是大模型从"文本专家"走向"通用智能"的关键一步。本文梳理多模态大模型的架构演进、能力边界与技术挑战,从GPT-4V开启商用多模态时代到Gemini 2实现原生多模态融合的完整技术路径。
一、多模态大模型发展脉络
1.1 关键里程碑
| 时间 | 模型 | 关键突破 |
|---|---|---|
| 2021.01 | DALL-E | 文本到图像生成 |
| 2021.01 | CLIP | 视觉-语言对齐 |
| 2022.04 | Flamingo | 少样本视觉对话 |
| 2023.03 | GPT-4V | 商用级视觉理解 |
| 2023.12 | Gemini 1.0 | 原生多模态架构 |
| 2024.05 | GPT-4o | 全模态实时交互 |
| 2024.12 | Gemini 2.0 | 原生图像/音频生成 |
| 2025.03 | Claude 3.5 | 视觉+代码执行 |
| 2025.06 | GPT-5 | 统一多模态推理 |
| 2025.09 | Gemini 2.5 Pro | 长上下文多模态推理 |
1.2 模态维度
多模态能力矩阵:
输入模态: 输出模态:
├── 文本 ├── 文本
├── 图像 ├── 图像
├── 视频 ├── 视频
├── 音频/语音 ├── 音频/语音
├── 文档(PDF) ├── 结构化数据
├── 代码 ├── 代码
├── 3D ├── 3D(实验性)
└── 传感器数据 └── 动作指令(机器人)
二、架构演进
2.1 三种主流多模态架构
架构A:编码器桥接型(Encoder-Bridge)
图像 → [视觉编码器(ViT)] → [投影层/Q-Former] → [LLM Decoder] → 文本
↑
文本 tokens
代表模型:LLaVA、InstructBLIP、Qwen-VL
特点:
- 视觉编码器(通常为预训练ViT)独立编码图像
- 通过投影层或交叉注意力将视觉特征映射到LLM的嵌入空间
- LLM保持不变或轻量微调
- 优势:模块化、训练效率高
- 劣势:视觉和语言的融合深度有限
架构B:早期融合型(Early Fusion)
图像 patches → tokenize → ┐
├→ [统一Transformer] → 多模态输出
文本 tokens ────────────→ ┘
代表模型:Gemini、Fuyu、Chameleon
特点:
- 所有模态在输入层就被统一为token序列
- 单个Transformer同时处理所有模态
- 模态间的交互更加深入
- 优势:深度融合、涌现能力更强
- 劣势:训练成本极高、数据需求大
架构C:混合扩散型(Hybrid Diffusion)
文本/图像 → [理解模块(Transformer)] ─→ 文本输出
│
└→ [生成模块(Diffusion)] → 图像/音频输出
代表模型:GPT-4o(推测)、Gemini 2.0
特点:
- 理解和生成使用不同的解码机制
- Transformer负责理解和推理
- 扩散模型负责高质量内容生成
- 优势:生成质量高、架构灵活
- 劣势:系统复杂度高
2.2 视觉编码器演进
| 编码器 | 分辨率 | 特点 | 使用者 |
|---|---|---|---|
| ViT-L/14 (CLIP) | 224x224 | 经典、生态好 | LLaVA 1.0 |
| ViT-G (EVA-CLIP) | 224-448 | 更大更强 | InternVL |
| SigLIP | 384-768 | 高分辨率、sigmoid | PaLI-X, Gemini |
| DINOv2 | 518 | 自监督、细粒度 | 研究用 |
| 动态分辨率 | 任意 | 切片策略 | LLaVA-NeXT, Qwen-VL2 |
动态分辨率处理策略:
# 动态分辨率示意(LLaVA-NeXT风格)
def process_image(image, max_tiles=12, tile_size=336):
"""
将高分辨率图像切分为多个tiles处理
"""
w, h = image.size
# 计算最优切分方案
aspect_ratio = w / h
best_layout = find_best_layout(aspect_ratio, max_tiles)
# 例如 2x3 = 6 tiles for a tall image
# 切分为tiles
tiles = split_into_tiles(image, best_layout, tile_size)
# 每个tile独立编码
tile_features = [vision_encoder(tile) for tile in tiles]
# 加入全局缩略图
thumbnail = resize(image, tile_size)
global_feature = vision_encoder(thumbnail)
# 拼接所有特征
return concat([global_feature] + tile_features)
# 输出: (1 + num_tiles) * tokens_per_tile 个视觉token
三、核心技术突破
3.1 视觉理解能力
| 能力 | GPT-4V(2023) | GPT-4o(2024) | Gemini 2(2025) | 开源SOTA |
|---|---|---|---|---|
| OCR准确率 | 92% | 96% | 97% | 94%(Qwen-VL2) |
| 图表理解 | 良好 | 优秀 | 优秀 | 良好 |
| 空间推理 | 一般 | 良好 | 优秀 | 一般 |
| 细粒度识别 | 良好 | 优秀 | 优秀 | 良好 |
| 多图理解 | 有限 | 支持 | 原生支持 | 支持 |
| 视频理解 | 不支持 | 支持 | 原生支持 | 部分支持 |
| 实时视觉 | 不支持 | 支持 | 支持 | 不支持 |
3.2 视频理解
视频理解是2025年多模态模型的核心战场:
视频理解技术路线:
方案A:帧采样法
视频 → 均匀抽帧(N帧) → 图像编码器 → LLM
优势: 简单、复用图像能力
劣势: 丢失时序信息、帧数受限
代表: GPT-4o, LLaVA-Video
方案B:视频编码器法
视频 → 3D视频编码器(ViViT/TimeSformer) → 投影 → LLM
优势: 保留时序、运动理解好
劣势: 训练成本高、长视频受限
代表: Video-ChatGPT
方案C:原生长上下文法
视频 → 密集抽帧 → 图像token → 长上下文LLM
优势: 利用长上下文窗口、信息完整
劣势: 计算成本极高
代表: Gemini 2(支持1小时视频)
3.3 音频/语音能力
| 能力 | GPT-4o | Gemini 2 | 开源方案 |
|---|---|---|---|
| 语音识别(STT) | 原生 | 原生 | Whisper |
| 语音合成(TTS) | 原生实时 | 原生实时 | XTTS/F5-TTS |
| 语音理解 | 情感/语调 | 情感/语调 | 有限 |
| 音乐理解 | 有限 | 支持 | 有限 |
| 实时对话 | 端到端 | 端到端 | 延迟较高 |
| 声音克隆 | 不支持 | 不支持 | 开源可实现 |
3.4 多模态推理
2025-2026年的关键突破在于跨模态推理:
跨模态推理示例:
场景:分析一份含图表的财务报告PDF
步骤:
1. 文档解析:PDF → 文本 + 表格 + 图表(多模态输入)
2. 视觉理解:图表中的趋势、关键数据点
3. 文本理解:报告中的结论和分析
4. 跨模态推理:验证文本结论与图表数据是否一致
5. 数据提取:结构化输出关键指标
6. 深度分析:基于多源信息的综合判断
这种跨模态推理需要模型:
- 理解不同模态的语义
- 在模态间建立对应关系
- 基于多模态证据进行逻辑推理
- 处理模态间的矛盾信息
四、主要模型对比
4.1 闭源多模态模型
| 模型 | 输入模态 | 输出模态 | 上下文 | 核心优势 |
|---|---|---|---|---|
| GPT-4o | 文/图/音/视 | 文/图/音 | 128K | 实时语音、全模态 |
| Gemini 2 Pro | 文/图/音/视/PDF | 文/图/音 | 2M | 超长上下文、原生多模态 |
| Claude 3.5 Sonnet | 文/图/PDF | 文 | 200K | 视觉+代码、精确性 |
| GPT-o3 | 文/图 | 文 | 128K | 视觉推理、数学 |
4.2 开源多模态模型
| 模型 | 参数量 | 输入模态 | 基准性能 | 许可证 |
|---|---|---|---|---|
| LLaVA-NeXT | 7-72B | 文/图/视 | 接近GPT-4V | Apache 2.0 |
| Qwen-VL2 | 2-72B | 文/图/视/PDF | 接近GPT-4o | Apache 2.0 |
| InternVL2.5 | 1-78B | 文/图/视 | 领先开源 | MIT |
| Phi-3.5-Vision | 4.2B | 文/图 | 小模型之王 | MIT |
| DeepSeek-VL2 | MoE 4.5B激活 | 文/图 | 高效率 | MIT |
| CogVLM2 | 19B | 文/图/视 | 中文优势 | Apache 2.0 |
4.3 多模态基准测试
| 基准 | 测试能力 | GPT-4o | Gemini 2 | Qwen-VL2-72B |
|---|---|---|---|---|
| MMMU | 多学科视觉推理 | 69.1 | 72.7 | 64.5 |
| MathVista | 数学视觉 | 63.8 | 70.4 | 61.2 |
| DocVQA | 文档理解 | 92.8 | 93.1 | 94.5 |
| ChartQA | 图表理解 | 85.7 | 88.2 | 83.0 |
| OCRBench | OCR综合 | 736 | 780 | 852 |
| Video-MME | 视频理解 | 71.9 | 78.3 | 65.1 |
五、多模态生成
5.1 图像生成模型演进
| 模型 | 类型 | 分辨率 | 关键创新 |
|---|---|---|---|
| DALL-E 3 | Diffusion | 1024x1024 | 文本理解+安全 |
| Midjourney v6 | Diffusion | 可变 | 美学质量 |
| Stable Diffusion 3 | Flow Matching | 可变 | DiT架构+开源 |
| Imagen 3 | Diffusion | 4K | 高分辨率+真实感 |
| Flux | Flow Matching | 可变 | 开源+高质量 |
| Ideogram 2 | Diffusion | 可变 | 文字渲染 |
5.2 视频生成
视频生成技术发展:
架构演进:
GAN → Diffusion → DiT(Diffusion Transformer)
关键模型时间线:
├── 2024.02 Sora (OpenAI) - 物理世界模拟器概念
├── 2024.06 Runway Gen-3 Alpha - 商用视频生成
├── 2024.12 Veo 2 (Google) - 高质量长视频
├── 2025.02 Sora正式发布 - 公开可用
├── 2025.06 Kling 2.0 (快手) - 中国视频生成领先
├── 2025.09 Veo 3 (Google) - 带原生音频
└── 2026.01 多家模型支持 4K 60fps
核心挑战:
├── 时序一致性(人物/物体保持)
├── 物理合理性(重力/碰撞/光影)
├── 长视频生成(>60秒质量下降)
├── 可控性(精确控制运动/构图)
└── 计算成本(生成1分钟视频需数十GPU分钟)
六、技术挑战与研究前沿
6.1 核心挑战
| 挑战 | 难度 | 当前进展 | 预计突破 |
|---|---|---|---|
| 幻觉(视觉幻觉) | 高 | 减少但未消除 | 2026-2027 |
| 空间推理 | 高 | 有限改进 | 2027+ |
| 细粒度计数 | 中 | 改进中 | 2026 |
| 跨帧一致性 | 高 | 视频生成核心瓶颈 | 2026-2027 |
| 实时处理延迟 | 中 | GPT-4o首次突破 | 持续优化 |
| 多模态对齐 | 高 | 活跃研究领域 | 渐进改善 |
6.2 前沿研究方向
多模态研究前沿:
1. 世界模型(World Models)
└── 从视频/图像学习物理世界的规律
└── 应用:机器人控制、自动驾驶
2. 统一多模态生成
└── 单一模型同时理解和生成所有模态
└── 代表:Chameleon, Gemini 2.0
3. 3D理解与生成
└── 从2D图像理解3D结构
└── 点云/NeRF/3D Gaussian生成
4. 具身智能(Embodied AI)
└── 视觉-语言-动作模型(VLA)
└── 代表:RT-2, Octo
5. 长上下文多模态
└── 处理小时级视频、百页文档
└── 关键:高效注意力机制
七、对产业的影响
7.1 应用场景
| 应用 | 多模态能力需求 | 成熟度 | 市场规模 |
|---|---|---|---|
| 智能客服 | 图+文理解 | 高 | 大 |
| 文档处理 | PDF/表格理解 | 高 | 大 |
| 辅助驾驶 | 视觉+3D+决策 | 中 | 极大 |
| 医学影像 | 高精度视觉分析 | 中 | 大 |
| 创意设计 | 图像/视频生成 | 中-高 | 中 |
| 教育 | 多模态交互+讲解 | 中 | 大 |
| 工业质检 | 细粒度视觉检测 | 中 | 中 |
7.2 未来展望
多模态大模型正在从"看图说话"走向"理解并操作物理世界"。Gemini 2的原生多模态架构和GPT-4o的实时全模态交互代表了两条并行的技术路线,而开源社区(LLaVA、Qwen-VL)在不断缩小差距。未来2-3年,我们将看到更加统一、高效、可控的多模态模型出现,最终实现"一个模型理解一切"的愿景。
Maurice | maurice_wen@proton.me