小语言模型（SLM）综述

原创灵阙教研团队

A 推荐进阶 | 约 6 分钟阅读更新于 2026-02-28

AI 导读

小语言模型（SLM）综述 Phi-3/Gemma/Qwen-mini：3B以下模型的蒸馏技术、端侧部署与性能边界引言 "小而美"正在成为大模型落地的重要路径。当70B模型在数据中心展示震撼能力时，3B以下的小语言模型（Small Language Models, SLM）正在手机、IoT设备和浏览器中安静地改变用户体验。Phi-3以3.8B参数达到7B级性能，Gemma...

小语言模型（SLM）综述

Phi-3/Gemma/Qwen-mini：3B以下模型的蒸馏技术、端侧部署与性能边界

引言

"小而美"正在成为大模型落地的重要路径。当70B模型在数据中心展示震撼能力时，3B以下的小语言模型（Small Language Models, SLM）正在手机、IoT设备和浏览器中安静地改变用户体验。Phi-3以3.8B参数达到7B级性能，Gemma 2B在端侧实现流畅对话——SLM的核心命题是：用最小的计算资源获得"够用"的智能。

SLM格局

主流小模型对比

模型	参数量	上下文	MMLU	HumanEval	许可证	特色
Phi-3.5-mini	3.8B	128K	69.0	62.8	MIT	高密度训练数据
Gemma 2-2B	2.6B	8K	51.3	42.7	Gemma	Google品质
Qwen2.5-1.5B	1.5B	128K	56.5	37.2	Apache 2.0	中文最强小模型
Qwen2.5-3B	3.1B	128K	64.4	53.3	Apache 2.0	均衡
Llama 3.2-3B	3.2B	128K	63.4	48.1	Llama License	Meta生态
Llama 3.2-1B	1.2B	128K	49.3	29.3	Llama License	极小
SmolLM2-1.7B	1.7B	8K	50.1	35.8	Apache 2.0	HF自研
Phi-3-small	7.4B	128K	75.3	68.4	MIT	SLM上限

性能vs参数规模曲线

MMLU分数 vs 模型参数量（归一化）

MMLU
90 |                                          * GPT-4o (est)
   |
80 |                              * Phi-3-small(7.4B)
   |                          * Qwen2.5-7B
70 |                    * Phi-3.5-mini(3.8B)
   |              * Qwen2.5-3B
60 |         * Qwen2.5-1.5B
   |    * Gemma2-2B
50 |  * Llama3.2-1B
   |
40 |
   +------+------+------+------+------+------+
   0     1B     2B     3B     5B     7B    10B

关键观察:
1. 1B→3B: 性能跃升最大（从"玩具"到"可用"）
2. 3B→7B: 稳步提升，边际递减
3. Phi系列在同参数量下表现突出（数据质量>数据量）

核心技术：如何让小模型变强

技术一：知识蒸馏

import torch
import torch.nn as nn
import torch.nn.functional as F

class DistillationTrainer:
    """Knowledge distillation from large teacher to small student."""

    def __init__(self, teacher, student, temperature: float = 3.0,
                 alpha: float = 0.5):
        self.teacher = teacher
        self.student = student
        self.temperature = temperature
        self.alpha = alpha  # Balance between distill and hard labels

        # Freeze teacher
        for param in self.teacher.parameters():
            param.requires_grad = False

    def compute_loss(self, input_ids, labels):
        # Teacher forward (no grad)
        with torch.no_grad():
            teacher_logits = self.teacher(input_ids).logits

        # Student forward
        student_logits = self.student(input_ids).logits

        # Soft target loss (KL divergence)
        T = self.temperature
        soft_teacher = F.log_softmax(teacher_logits / T, dim=-1)
        soft_student = F.log_softmax(student_logits / T, dim=-1)
        distill_loss = F.kl_div(
            soft_student, soft_teacher.exp(),
            reduction="batchmean"
        ) * (T * T)

        # Hard target loss (standard cross-entropy)
        hard_loss = F.cross_entropy(
            student_logits.view(-1, student_logits.size(-1)),
            labels.view(-1),
            ignore_index=-100,
        )

        # Combined loss
        total_loss = self.alpha * distill_loss + (1 - self.alpha) * hard_loss
        return total_loss, distill_loss, hard_loss

技术二：高质量数据策略

Phi系列的成功证明了一个关键洞察：数据质量比数据量更重要。

数据质量金字塔（Phi-3策略）

          ┌──────────┐
          │ 合成数据  │  LLM生成的高质量教学数据
          │ (最精华)  │  教科书级别的解释+代码
          ├──────────┤
          │ 精选网页  │  经过严格过滤的网页数据
          │ (高质量)  │  学术/技术/百科内容
          ├──────────┤
          │ 通用网页  │  一般性网页数据
          │ (中等质量)│  新闻/博客/论坛
          └──────────┘

Phi-3训练策略:
  总训练token: ~3.3T (远少于Llama3的15T)
  但数据质量极高:
  ├── 合成数据占比高（LLM生成教学数据）
  ├── 多轮过滤（质量评分 + 去重 + 安全检查）
  └── 课程学习（先简单后复杂）

启示: 3B模型 + 3T高质量token > 7B模型 + 15T普通token

技术三：架构优化

优化	描述	参数节省	质量影响
GQA	Grouped Query Attention	减少KV头数	极小
Shared Embeddings	输入输出共享embedding	~10-15%	小
层数vs宽度	更宽更浅（适合端侧）	取决于配置	需调优
RoPE扩展	支持长上下文	无	无
SwiGLU	替代ReLU提升表达力	增加少量	正面

端侧部署实战

量化与推理优化

# llama.cpp deployment for mobile/edge
import subprocess

def deploy_slm_edge(
    model_path: str,
    quantization: str = "Q4_K_M",
    target_device: str = "phone",
) -> dict:
    """Prepare SLM for edge deployment."""

    # Device profiles
    profiles = {
        "phone": {
            "ram_gb": 6,
            "recommended_quant": ["Q4_K_M", "Q4_0", "Q3_K_M"],
            "max_model_gb": 3.0,
            "npu_available": True,
        },
        "tablet": {
            "ram_gb": 8,
            "recommended_quant": ["Q5_K_M", "Q4_K_M"],
            "max_model_gb": 4.0,
            "npu_available": True,
        },
        "raspberry_pi": {
            "ram_gb": 8,
            "recommended_quant": ["Q4_0", "Q3_K_M", "Q2_K"],
            "max_model_gb": 3.0,
            "npu_available": False,
        },
        "browser": {
            "ram_gb": 4,
            "recommended_quant": ["Q4_0", "Q3_K_M"],
            "max_model_gb": 2.0,
            "npu_available": False,  # WebGPU
        },
    }

    profile = profiles[target_device]

    # Estimate quantized model size
    quant_bits = {
        "Q8_0": 8.5, "Q6_K": 6.6, "Q5_K_M": 5.7,
        "Q4_K_M": 4.8, "Q4_0": 4.5, "Q3_K_M": 3.9, "Q2_K": 2.7,
    }

    # Parse model size from path (simplified)
    model_params_b = 3.0  # Example: 3B model
    bits = quant_bits.get(quantization, 4.8)
    model_size_gb = model_params_b * bits / 8

    feasible = model_size_gb <= profile["max_model_gb"]

    return {
        "model_size_gb": round(model_size_gb, 2),
        "target_device": target_device,
        "quantization": quantization,
        "device_ram_gb": profile["ram_gb"],
        "feasible": feasible,
        "npu_acceleration": profile["npu_available"],
        "recommended_quants": profile["recommended_quant"],
    }

# Test all configurations
for device in ["phone", "tablet", "raspberry_pi", "browser"]:
    for quant in ["Q4_K_M", "Q3_K_M"]:
        r = deploy_slm_edge("model", quant, device)
        status = "OK" if r["feasible"] else "NO"
        print(f"{device:15s} {quant:8s}: [{status}] {r['model_size_gb']:.1f}GB "
              f"(limit: {r['device_ram_gb'] * 0.5:.1f}GB)")

运行时性能基准

设备	模型	量化	Tokens/s	首Token延迟	内存占用
iPhone 15 Pro	Phi-3.5-mini	Q4_K_M	18 tok/s	200ms	2.1GB
iPhone 15 Pro	Qwen2.5-1.5B	Q4_K_M	28 tok/s	120ms	1.0GB
Pixel 9 Pro	Gemma 2-2B	Q4_0	15 tok/s	250ms	1.5GB
MacBook Air M3	Phi-3.5-mini	Q4_K_M	45 tok/s	80ms	2.1GB
Raspberry Pi 5	Qwen2.5-1.5B	Q3_K_M	5 tok/s	800ms	0.8GB

应用场景

SLM最佳适用场景

场景	推荐模型	参数	理由
设备端助手	Phi-3.5-mini	3.8B	质量最高的端侧模型
中文设备端	Qwen2.5-1.5B/3B	1.5-3B	中文能力领先
文本分类	SmolLM2-1.7B	1.7B	简单任务够用
代码补全	Qwen2.5-Coder-1.5B	1.5B	代码专项优化
RAG检索增强	Qwen2.5-3B	3B	阅读理解好
浏览器AI	Gemma 2-2B	2.6B	WebGPU友好
智能IoT	Qwen2.5-0.5B	0.5B	极致小巧

SLM不适用场景

复杂多步推理（需要7B+）
创意写作（质量差距明显）
长文档总结（理解深度不足）
多语言翻译（小模型语言覆盖有限）

结论

小语言模型正在定义AI落地的"最后一公里"。通过高质量数据策略（Phi路线）、知识蒸馏和激进量化，3B以下的模型已经能在分类、摘要、简单问答等任务上提供实用的智能。关键洞察是：SLM的价值不在于替代大模型，而在于让AI能力延伸到大模型无法触及的场景——离线设备、实时响应、隐私敏感和带宽受限。对于工程团队，SLM选型的核心原则是"为任务选择最小够用的模型"，而非追求基准分数。

Maurice | maurice_wen@proton.me