DeepSeek 技术解析:开源模型的工程创新

作者:Maurice | 灵阙学院


一、DeepSeek 崛起背景:用 1/10 成本震动硅谷

2025 年 1 月,一家来自杭州的中国 AI 创业公司 DeepSeek(深度求索)发布了 DeepSeek V3,随即以一份详尽的技术报告引爆全球 AI 圈。更令人震惊的是,这个在多项主流基准测试中与 GPT-4o 和 Claude 3.5 Sonnet 并驾齐驱的模型,训练成本仅为 557 万美元——相比主流估计的 GPT-4 训练成本超过 1 亿美元,不到其 1/10。

这不是性价比的微小提升,而是数量级的飞跃。随后发布的推理模型 DeepSeek R1 更是在数学、代码和逻辑推理方面与 OpenAI o1 正面对决,且以 MIT 开源许可证全量公开模型权重和训练细节。

2026 年 1 月下旬,美股 AI 板块单日暴跌,英伟达市值蒸发近 6000 亿美元。华尔街第一次意识到:闭源 API 的护城河,可能比想象中浅得多。

DeepSeek 的崛起背后,有三个关键因素值得深入拆解:

  • 算法创新替代算力堆砌:在美国出口管制限制高端 GPU 的背景下,DeepSeek 工程团队将每一块显卡的利用率压榨到极限,并在架构层面做出多个原创性突破。
  • 工程极致主义:FP8 混合精度训练、MLA 注意力压缩、流水线并行优化,每一项技术选择背后都有严格的算法推导和工程验证。
  • 开源作为战略武器:通过 MIT 协议开放全部权重和训练细节,DeepSeek 迅速获得全球开发者社区的信任,也对闭源竞争对手形成了定价压力。

二、DeepSeek V3 技术架构深度解析

2.1 整体规模:671B 参数的 MoE 巨兽

DeepSeek V3 是一个混合专家(Mixture of Experts,MoE)模型,总参数量为 671B,但每次推理时只激活约 37B 参数。这一设计使得模型的推理成本与一个 37B 稠密模型相当,同时享有 671B 参数规模带来的知识容量。

DeepSeek V3 核心规格
├── 总参数量:671B
├── 每 token 激活参数:37B
├── Transformer 层数:61
├── 注意力头:128 个 Query Head,128 个 KV Head(经 MLA 压缩)
├── 隐藏维度:7168
├── FFN:替换为 MoE 层(256 个路由专家 + 1 个共享专家)
├── 上下文长度:128K tokens
└── 训练数据:14.8T tokens

2.2 Multi-head Latent Attention(MLA):KV-Cache 压缩的极致

传统 Multi-head Attention 的 KV-Cache 是推理阶段的核心瓶颈。对于长上下文推理,KV-Cache 的显存占用会随序列长度线性增长,严重限制批处理效率。

MLA 的核心思路是低秩投影:将 Key 和 Value 矩阵联合压缩到一个低维潜在空间(latent space),推理时只需缓存这个压缩后的表示。

标准 MHA KV-Cache 占用 = 2 × num_heads × head_dim × seq_len × num_layers
MLA KV-Cache 占用     = latent_dim × seq_len × num_layers
                      (latent_dim << 2 × num_heads × head_dim)

DeepSeek V3 将 KV-Cache 压缩比达到约 5.25x,在保持模型性能的同时,显著提升了长上下文场景下的吞吐量。具体实现分两个阶段:

  1. Down-projection:输入 hidden state 经过低秩矩阵压缩到 latent vector c_KV(维度 512)
  2. Up-projection:推理时从 c_KV 解压出完整的 K、V 矩阵参与注意力计算
# MLA 伪代码示意(非官方实现)
class MultiheadLatentAttention(nn.Module):
    def __init__(self, d_model, num_heads, latent_dim=512):
        self.d_model = d_model
        self.num_heads = num_heads
        self.latent_dim = latent_dim

        # Query 仍走完整投影
        self.W_q = nn.Linear(d_model, num_heads * head_dim)

        # KV 联合压缩
        self.W_kv_down = nn.Linear(d_model, latent_dim)       # 压缩
        self.W_k_up = nn.Linear(latent_dim, num_heads * head_dim)  # 解压 K
        self.W_v_up = nn.Linear(latent_dim, num_heads * head_dim)  # 解压 V

    def forward(self, x, kv_cache=None):
        q = self.W_q(x)

        # 只缓存低维 latent,而非完整 KV
        c_kv = self.W_kv_down(x)          # shape: [batch, seq, latent_dim]
        k = self.W_k_up(c_kv)
        v = self.W_v_up(c_kv)

        # 标准注意力计算
        attn_out = scaled_dot_product_attention(q, k, v)
        return attn_out, c_kv              # 只缓存 c_kv

2.3 DeepSeekMoE:细粒度专家 + 共享专家的双重设计

传统 MoE(如 Mixtral)通常使用粗粒度专家:每层 8 个专家,每次激活 2 个。DeepSeek 的 DeepSeekMoE 采用了相反的哲学:更多、更小的专家

DeepSeek V3 每层配置 256 个路由专家,每次激活 8 个,同时设置 1 个共享专家(始终激活)。细粒度专家设计的优势在于:

  • 专家之间的知识分配更细致,减少知识冗余
  • 路由决策的搜索空间更大,模型可以学到更精确的专家选择策略
  • 共享专家捕捉跨域通用知识,避免所有专家各自"重复发明轮子"
DeepSeekMoE 路由机制
Input Token → Router (Softmax over 256 experts)
           → Top-8 routed experts (各自计算 FFN 输出)
           → 1 shared expert (始终参与)
           → Weighted sum → Output

为防止负载不均衡(少数专家过载、大多数专家空闲),DeepSeek V3 引入了辅助无损负载均衡(Auxiliary-Loss-Free Load Balancing):通过动态调整每个专家的 bias 项而非额外损失函数来引导路由均衡,避免了传统辅助损失破坏模型主要学习目标的问题。

2.4 FP8 混合精度训练:全球首个大规模实践

DeepSeek V3 是业界首个在超大规模模型上成功应用 FP8 训练的案例。FP8 相比 BF16 的内存占用减少一半,计算吞吐提升约 1.6-2x,但对数值稳定性的挑战极大。

DeepSeek 工程团队的解决方案:

  • 梯度累加和 master weights 保持 BF16/FP32 精度
  • 仅将前向传播中的激活和权重矩阵乘法降至 FP8
  • 引入精细化的缩放因子(scaling factor)策略,逐 tensor 动态调整量化范围
  • 针对 H800 GPU 的 FP8 CUDA 核进行专项优化
精度分配策略:
├── Forward Pass Matmul:FP8(节省显存 + 提升吞吐)
├── Gradient Computation:BF16(保证梯度精度)
├── Optimizer State:BF16/FP32(保证收敛稳定性)
└── Master Weights:BF16(最终模型权重精度)

2.5 训练基础设施与成本核算

DeepSeek V3 使用 2048 块 NVIDIA H800 GPU,训练耗时约 55 天,总计算量约 2.788×10²⁴ FLOP

成本估算明细
├── GPU 租用:H800 × 2048 块 × 55 天 × 24 小时
├── 单块 H800 云端价格约 $2/小时
├── 总 GPU 时:2048 × 55 × 24 ≈ 270 万 GPU·小时
├── 官方报告总成本:$5.576M(折合 ~$2.06/GPU·小时)
└── 对比 GPT-4 估算:$78M - $100M+

三、DeepSeek R1:纯强化学习炼出的推理能力

3.1 R1-Zero:不需要人工标注的推理涌现

DeepSeek R1 最令学术界震惊的不是性能数字,而是训练方法的根本性创新

传统 o1 类推理模型的训练路线是:收集大量人工标注的思维链(Chain-of-Thought)数据 → 监督微调 → 强化学习。这意味着必须雇用大量专家来标注"正确的推理过程",成本和规模都受限。

DeepSeek R1-Zero 的路线是:直接从基础语言模型出发,仅用强化学习,不依赖任何人工标注的推理过程

奖励函数的设计极为简洁:

  • 格式奖励:模型必须将推理过程包裹在 <think>...</think> 标签内
  • 答案准确性奖励:最终答案是否正确(对于数学题可以精确验证)

就这两条规则,让模型在数学和代码领域自发地学会了推理。

3.2 "顿悟时刻"(Aha Moment)

DeepSeek 团队在论文中记录了一个令人着迷的现象:在 R1-Zero 训练过程中,模型在某个检查点突然开始自发地反思自己的推理过程,遇到错误时会回退并尝试新的路径,这种行为完全没有人工标注的引导。

团队将此称为"顿悟时刻"(Aha Moment):

训练前期(早期 checkpoint):
<think>
Let me calculate: 15 × 23 = 345. The answer is 345.
</think>

顿悟时刻后(中期 checkpoint):
<think>
Let me calculate: 15 × 23...
Wait, let me reconsider. 15 × 20 = 300, and 15 × 3 = 45, so 15 × 23 = 345.
Actually, let me verify: 345 / 15 = 23. Yes, this is correct.
The answer is 345.
</think>

这种自发的元认知能力(意识到自己可能出错并主动验证)正是推理模型相比普通语言模型的核心优势。

3.3 R1-Zero vs R1:两代模型的区别

维度 R1-Zero R1
训练起点 基础预训练模型(DeepSeek V3 Base) DeepSeek V3 Base
SFT 阶段 有(使用 R1-Zero 生成的 CoT 数据 + 人工精选)
RL 阶段 直接 RL SFT 热启动后 RL
语言混乱问题 存在(偶尔中英混搭) 基本解决
可读性 一般 优秀
推理性能 更强且稳定
开源

R1 的训练流程可以理解为:用 R1-Zero 生成大量"合格但粗糙"的推理轨迹,经过过滤和人工精选后作为 SFT 数据,让 R1 在获得基础推理能力的同时,也拥有良好的语言风格和可读性。

3.4 蒸馏版本的实测性能

R1 系列最具工程价值的部分是蒸馏版本:用 R1 的推理轨迹作为训练数据,将推理能力蒸馏到更小的 Qwen 和 Llama 基座模型中。

蒸馏版本 基座模型 AIME 2024 MATH-500 LiveCodeBench 显存需求(FP16)
R1-Distill-Qwen-1.5B Qwen2.5-1.5B 28.9% 83.9% 16.9% ~3GB
R1-Distill-Qwen-7B Qwen2.5-7B 55.5% 92.8% 37.6% ~14GB
R1-Distill-Qwen-14B Qwen2.5-14B 69.7% 93.9% 53.1% ~28GB
R1-Distill-Qwen-32B Qwen2.5-32B 72.6% 94.3% 57.2% ~64GB
R1-Distill-Llama-70B Llama-3.3-70B 70.0% 94.5% 57.5% ~140GB
R1(满血版) DeepSeek V3 79.8% 97.3% 65.9% ~1340GB

最令人震惊的结论:7B 蒸馏版本在 AIME 数学竞赛上的得分超过 GPT-4o(9.3%),而 7B 模型可以在一块 24GB 消费级 GPU 上本地运行。


四、开源策略分析:MIT 许可证作为竞争武器

4.1 为什么选择 MIT?

DeepSeek 选择了 MIT 许可证,这是所有主流开源协议中最宽松的一种:允许商业使用、修改、二次分发,无需开放修改后的源代码。

这与 Meta 的 Llama 系列(自定义商业许可,有用户数量限制)形成鲜明对比。MIT 许可证意味着:

  • 任何公司都可以基于 DeepSeek 权重构建商业产品
  • 无需向 DeepSeek 支付费用或报告使用情况
  • 可以修改模型并以不同名称发布,无需公开修改内容

4.2 开放程度前所未有

DeepSeek 不仅开放了模型权重,还公开了完整的技术报告,包括:

  • 完整的架构设计决策及其背后的实验数据
  • FP8 训练的完整工程细节(含数值稳定性处理方法)
  • MoE 负载均衡的算法实现
  • 多节点通信的优化方案(包括自定义 RDMA 通信原语)

这一程度的透明度在业界极为罕见。即便是 Meta 开放 Llama 权重,也从未公开完整的训练代码和实验记录。

4.3 对行业的结构性冲击

DeepSeek 的开源策略从两个维度重塑了行业格局:

定价压力:OpenAI 和 Anthropic 的闭源 API 溢价建立在"只有我们能做到"的假设之上。当性能相当的模型可以免费获取并自行部署,企业用户对 API 定价的容忍度急剧下降。2026 年初,OpenAI 对 o3-mini 和 GPT-4o 系列进行了显著降价,外界普遍认为这是对 DeepSeek 压力的直接回应。

技术路线验证:DeepSeek 证明了"算法 + 工程效率"可以在相当程度上替代"暴力堆算力"。这对于面临出口管制的中国 AI 生态是极大的鼓舞,也促使美国头部实验室重新审视自己的训练效率。


五、工程部署实战

5.1 硬件需求速查表

在选择部署方案之前,首先需要确认硬件配置是否满足需求:

模型 量化格式 显存需求 推荐硬件 适用场景
R1-Distill-Qwen-1.5B FP16 3GB RTX 3060 / M1 MacBook 边缘推理、快速实验
R1-Distill-Qwen-7B Q4_K_M 5GB RTX 4060 / M2 MacBook 个人开发、本地助手
R1-Distill-Qwen-14B Q4_K_M 9GB RTX 3090 / RTX 4080 中等任务、团队共享
R1-Distill-Qwen-32B Q4_K_M 20GB RTX 3090×2 / A100 40G 高质量推理、生产级
V3 / R1(满血) FP8 ~800GB H100×8 集群 企业级云部署

说明:Q4_K_M 为 GGUF 4-bit 量化格式,性能损失约 1-3%,推荐优先考虑。

5.2 Ollama 本地部署(最简方案)

# 安装 Ollama(macOS/Linux 通用)
curl -fsSL https://ollama.com/install.sh | sh

# 拉取 DeepSeek R1 蒸馏版(7B,约 4.7GB)
ollama pull deepseek-r1:7b

# 交互式对话
ollama run deepseek-r1:7b

# 启动 API 服务(兼容 OpenAI 格式)
OLLAMA_HOST=0.0.0.0:11434 ollama serve
# 通过 OpenAI 兼容接口调用
import openai

client = openai.OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama",  # 占位符,Ollama 不校验
)

response = client.chat.completions.create(
    model="deepseek-r1:7b",
    messages=[
        {"role": "user", "content": "证明 sqrt(2) 是无理数"}
    ],
    temperature=0.6,
    max_tokens=4096,
)

# 推理过程在 <think> 标签内,最终答案在标签外
print(response.choices[0].message.content)

5.3 vLLM 部署(生产级高吞吐)

# 安装 vLLM(需要 CUDA 环境)
pip install vllm

# 部署 32B 蒸馏版(需要 A100 40G 或 RTX 3090 双卡)
python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B \
    --tensor-parallel-size 2 \
    --max-model-len 32768 \
    --gpu-memory-utilization 0.92 \
    --port 8000

# 满血 V3/R1 部署(需要 8×H100 或等效配置)
python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-V3 \
    --tensor-parallel-size 8 \
    --pipeline-parallel-size 1 \
    --max-model-len 65536 \
    --enable-prefix-caching \
    --port 8000
# vLLM 推理调用(与 Ollama 接口完全一致)
import openai

client = openai.OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="vllm",
)

response = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-R1-Distill-Qwen-32B",
    messages=[
        {"role": "system", "content": "你是一个专业的 Python 工程师"},
        {"role": "user", "content": "写一个高效的 LRU Cache 实现"}
    ],
    temperature=0.7,
)
print(response.choices[0].message.content)

5.4 DeepSeek 官方 API(云端直接调用)

# 使用 DeepSeek 官方 API(性价比极高)
import openai

client = openai.OpenAI(
    api_key="YOUR_DEEPSEEK_API_KEY",  # 从 platform.deepseek.com 获取
    base_url="https://api.deepseek.com",
)

# 调用 V3(通用对话/代码)
response = client.chat.completions.create(
    model="deepseek-chat",            # 对应 DeepSeek V3
    messages=[{"role": "user", "content": "你好"}],
)

# 调用 R1(推理/数学/复杂逻辑)
response = client.chat.completions.create(
    model="deepseek-reasoner",        # 对应 DeepSeek R1
    messages=[{"role": "user", "content": "解方程 x^2 - 5x + 6 = 0"}],
)

# R1 响应包含推理过程
reasoning = response.choices[0].message.reasoning_content  # <think> 内容
answer = response.choices[0].message.content               # 最终答案

5.5 量化格式选择指南

GGUF 量化格式对比(以 7B 模型为例)
├── Q2_K:最激进压缩,2GB,性能损失明显,不推荐生产使用
├── Q4_K_M:推荐首选,4.8GB,性能损失 1-3%,速度/质量最优平衡
├── Q5_K_M:5.7GB,性能损失 <1%,显存允许时优先选择
├── Q8_0:接近 FP16 质量,6.7GB,适合对精度敏感的任务
└── FP16:无损,14GB,推荐有充足显存时使用

AWQ(适合 GPU 部署,与 vLLM 集成更好)
├── INT4:显存减半,速度提升,精度略优于 GGUF Q4
└── INT8:接近 FP16,适合 A100/H100 等高端 GPU

选择建议:
- 个人笔记本 / 无 GPU:GGUF Q4_K_M(Ollama 自动处理)
- 消费级 GPU(8-24GB):GGUF Q4_K_M 或 AWQ INT4
- 数据中心 GPU(A100/H100):FP16 或 AWQ INT4 + vLLM

六、DeepSeek vs 竞品:全维度对比

6.1 主要基准测试对比

以下数据来源于各模型官方技术报告及第三方评测(截至 2026 年 Q1):

模型 MMLU HumanEval MATH-500 GSM8K AIME 2024
DeepSeek V3 88.5% 89.0% 90.2% 89.9% 39.2%
DeepSeek R1 90.8% 92.3% 97.3% 94.8% 79.8%
GPT-4o 87.2% 90.2% 76.6% 92.9% 9.3%
OpenAI o1 91.8% 92.4% 96.4% 95.8% 74.4%
Claude 3.5 Sonnet 88.7% 92.0% 78.3% 93.7% 16.0%
Llama 3.1 405B 88.6% 89.0% 73.8% 96.8% 23.3%
Qwen 2.5 72B 86.1% 86.6% 83.1% 91.6% 30.4%
Mixtral 8x22B 77.8% 75.0% 54.9% 88.1%

关键解读:

  • DeepSeek R1 在推理密集型任务(MATH/AIME)上与 OpenAI o1 基本持平,在 MMLU 通用知识上略弱
  • DeepSeek V3 在代码生成(HumanEval)和数学上全面超越 GPT-4o
  • Llama 3.1 405B 参数量远大于 V3 激活参数(405B vs 37B),但整体性能仍落后

6.2 中文能力专项对比

模型 C-Eval CMMLU 中文代码 中英混合指令
DeepSeek V3 90.1% 88.8% 优秀 优秀
DeepSeek R1 91.8% 90.7% 优秀 优秀
Qwen 2.5 72B 89.3% 88.7% 良好 优秀
GPT-4o 85.5% 83.2% 良好 良好
Llama 3.1 405B 77.3% 75.1% 一般 一般
Claude 3.5 Sonnet 83.7% 81.9% 良好 良好

对于中文场景,DeepSeek 系列与 Qwen 系列(阿里)形成中文能力第一梯队,明显领先于英文原生模型。

6.3 架构对比

主流开源大模型架构对比(2026 Q1)

DeepSeek V3:671B MoE,37B 激活,MLA 注意力,FP8 训练
├── 优势:推理成本低、KV-Cache 小、长上下文效率高
└── 劣势:部署需要大内存(存储所有专家权重)

Llama 3.1 405B:稠密 Transformer,405B 激活
├── 优势:架构简单,社区工具最成熟
└── 劣势:推理成本极高,部署门槛最高

Qwen 2.5 72B:稠密 Transformer,GQA 注意力
├── 优势:中文能力强,部署相对容易
└── 劣势:参数规模受限,峰值性能不如 V3

Mixtral 8x22B:MoE,141B 总参数,39B 激活
├── 优势:先行者,社区生态相对成熟
└── 劣势:性能明显落后于 V3/R1 一代

七、DeepSeek 时刻:对行业的深远影响

7.1 资本市场的震动

2026 年 1 月 27 日,DeepSeek R1 登顶 App Store,引发美股 AI 板块剧烈震荡:

  • 英伟达单日市值蒸发约 5890 亿美元(史上最大单日市值损失)
  • ARM、Super Micro Computer 等 AI 算力概念股跌幅均超 10%
  • OpenAI、Anthropic 等私有公司估值承压

市场的逻辑是:如果 1/10 的成本可以训练出相当的模型,"AI 需要无限算力"的叙事就会动摇,英伟达 GPU 的需求增速预期随之修正。

不过,这一判断过于线性:更低的训练成本实际上会扩大 AI 应用的总需求(Jevons 悖论),长期来看算力需求不会因此减少,只是门槛降低。

7.2 开源模型够用了吗?

这是企业客户最关心的问题。答案取决于具体场景:

开源已经够用的场景

  • 中文文本理解与生成(DeepSeek V3 / Qwen 2.5 表现出色)
  • 数学和代码推理(R1 系列性能与顶级闭源模型持平)
  • 知识库问答、RAG 应用
  • 成本敏感型高并发推理

闭源 API 仍有优势的场景

  • 多模态处理(图像/视频理解:GPT-4o、Gemini 1.5 Pro 仍领先)
  • 实时搜索增强(OpenAI with web / Perplexity)
  • 超长上下文(Gemini 1.5 Pro 的 1M token 窗口暂无开源对手)
  • 合规审计要求严格的场景(使用 API 更易管理责任归属)
  • 企业不具备 GPU 运维能力时(云 API 可以零基础接入)

7.3 对中国 AI 产业的意义

DeepSeek 的突破具有超越商业竞争的战略意义:

  • 证明路径可行:在高端 GPU 受限的环境下,通过算法创新仍可达到 SOTA 水平
  • 重塑叙事:中国 AI 从"模仿者"到"方法论创新者"的叙事转变
  • 生态建设:MIT 开源吸引全球开发者参与中国技术栈,形成社区网络效应
  • 人才信号:吸引国际顶级研究者关注并加入中国 AI 研究社区

八、企业选型建议

根据以上分析,以下给出不同场景的选型决策框架:

8.1 选择 DeepSeek 自部署的场景

适合自部署的条件(满足 3 条以上优先考虑):
├── 数据安全要求高,不允许数据出境
├── 请求量大(月超 1000 万 token),成本是核心考量
├── 需要中文能力优先(DeepSeek V3 中文 > GPT-4o)
├── 场景聚焦在文本/代码/推理(无需多模态)
├── 有 GPU 基础设施或愿意投入
└── 需要模型定制化微调(LoRA/全量 SFT)

推荐配置:

  • 初创团队:Ollama + R1-Distill-Qwen-7B,一张 RTX 4070 起步
  • 中型企业:vLLM + R1-Distill-Qwen-32B,2×A100 或 4×H100
  • 大型企业:vLLM + DeepSeek V3 满血,8×H100 集群,按需水平扩展

8.2 选择 DeepSeek 官方 API 的场景

DeepSeek 官方 API 价格:

  • deepseek-chat(V3):输入 $0.27/M tokens,输出 $1.10/M tokens(缓存命中 $0.07/M)
  • deepseek-reasoner(R1):输入 $0.55/M tokens,输出 $2.19/M tokens

这比 GPT-4o 便宜约 10-20 倍,同时免去运维负担,适合:

  • 中小企业快速验证 AI 功能
  • 弹性流量、无法预测峰值的场景
  • 对 GPU 运维没有经验的团队

8.3 坚持闭源 API 的场景

需求 推荐模型 理由
复杂图像理解 GPT-4o / Gemini 1.5 Pro 多模态能力暂无开源对手
超长文档(>100K tokens) Gemini 1.5 Pro 1M token 窗口
合规审计、责任归属 OpenAI / Anthropic 企业服务协议完善
实时搜索增强 Perplexity / OpenAI w/ Search 原生搜索集成
低延迟实时对话 GPT-4o-mini / Claude Haiku 延迟 < 500ms

九、结语:开源的胜利,还是竞争的开始?

DeepSeek 的崛起标志着开源大模型首次在推理能力上真正比肩顶级闭源系统。但这并不意味着 AI 军备竞赛的终结——更像是一个新阶段的开始。

对于 AI 产品经理和技术决策者,核心洞察是:

  1. 成本优化从架构创新中来,不能只靠堆卡。评估技术方案时,关注算法效率而非只看参数规模。
  2. 开源生态的工具链成熟度正在追赶。Ollama、vLLM、SGLang 让部署门槛持续下降,12 个月前需要专业团队的工作,现在一个工程师可以完成。
  3. 模型能力正在商品化。差异化护城河将更多来自数据飞轮、产品体验和业务场景的深度集成,而非单纯的模型能力。
  4. 中文场景优先选本土模型。DeepSeek 和 Qwen 在中文任务上已全面超越英文原生模型,无论是性能还是文化适配性。

DeepSeek 给行业留下的最重要遗产,或许不是某个具体的技术发明,而是一个证明:在 AI 这个领域,工程智慧可以战胜资源优势。这个信号,对于所有资源有限却志存高远的团队,都是最好的鼓励。


参考资料

  • DeepSeek-V3 Technical Report(arXiv: 2412.19437)
  • DeepSeek-R1 Technical Report(arXiv: 2501.12948)
  • DeepSeek-V2 Technical Report(arXiv: 2405.04434,MLA 首次提出)
  • Hugging Face Open LLM Leaderboard(截至 2026 Q1)
  • DeepSeek 官方 API 定价文档:platform.deepseek.com
  • Ollama 官方文档:ollama.com
  • vLLM 官方文档:docs.vllm.ai

Maurice | maurice_wen@proton.me