跳转至

选择

一、先定死一个前提

👉 DeepSeek-R1 原版

  • ❌ 个人无法部署
  • 需要多机 H100/A100 集群

👉 个人能玩的,只有:

DeepSeek-R1 的蒸馏模型(distill)


二、个人部署能覆盖的参数范围

🎯 实际可行范围(重点)

参数规模 是否推荐 说明
1B ~ 3B 轻量、本地工具
7B ~ 8B ✔✔✔ 主力模型(最优解)
13B ~ 14B ✔(有条件) 需要好一点 GPU
32B ⚠(极限) 勉强可玩
70B+ 基本不用想

三、精度怎么选(关键)

精度 = 你用 FP16 / INT8 / INT4


🎯 推荐策略(直接抄就行)

模型大小 推荐精度
7B / 8B INT4(首选) / INT8
13B INT4
32B 必须 INT4

👉 为什么不用 FP16?

举个例子:

7B × 2 bytes ≈ 14GB

👉 一张 3060(12GB)直接爆


四、按显卡给你推荐(最实用部分)


🧠 1️⃣ 入门级(无 GPU / 低端)

  • CPU / 核显
  • 内存 ≥ 16GB

👉 可跑:

  • 1B / 3B
  • 7B(INT4,极慢)

👉 工具:

  • llama.cpp

🧠 2️⃣ 主流玩家(最常见)

👉 GPU:

  • RTX 3060(12GB)
  • RTX 4060(8GB)

👉 可跑:

  • 7B / 8B(INT4 ✔)
  • 13B(勉强)

👉 推荐模型:

  • deepseek-r1-distill-qwen-7b
  • deepseek-r1-distill-llama-8b

🧠 3️⃣ 高端单卡(最佳个人体验)

👉 GPU:

  • RTX 3090 / 4090(24GB)

👉 可跑:

  • 7B / 8B(飞快)
  • 13B(很好)
  • 32B(INT4 ✔ 可用)

👉 推荐:

  • 主力:7B
  • 高级任务:32B

🧠 4️⃣ 发烧级(多卡)

👉 GPU:

  • 2×3090 / 4090

👉 可跑:

  • 32B(流畅)
  • 70B(勉强)

五、别忽略这个:上下文长度(隐形杀手)

👉 KV cache 会吃显存(很多人翻车)

例如:

模型 context 额外显存
7B 8K ~2GB
32B 8K ~10GB

👉 所以:

“能跑模型 ≠ 能开长上下文”