选择
一、先定死一个前提¶
👉 DeepSeek-R1 原版
- ❌ 个人无法部署
- 需要多机 H100/A100 集群
👉 个人能玩的,只有:
DeepSeek-R1 的蒸馏模型(distill)
二、个人部署能覆盖的参数范围¶
🎯 实际可行范围(重点)¶
| 参数规模 | 是否推荐 | 说明 |
|---|---|---|
| 1B ~ 3B | ✔ | 轻量、本地工具 |
| 7B ~ 8B | ✔✔✔ | 主力模型(最优解) |
| 13B ~ 14B | ✔(有条件) | 需要好一点 GPU |
| 32B | ⚠(极限) | 勉强可玩 |
| 70B+ | ❌ | 基本不用想 |
三、精度怎么选(关键)¶
精度 = 你用 FP16 / INT8 / INT4
🎯 推荐策略(直接抄就行)¶
| 模型大小 | 推荐精度 |
|---|---|
| 7B / 8B | INT4(首选) / INT8 |
| 13B | INT4 |
| 32B | 必须 INT4 |
👉 为什么不用 FP16?¶
举个例子:
7B × 2 bytes ≈ 14GB
👉 一张 3060(12GB)直接爆
四、按显卡给你推荐(最实用部分)¶
🧠 1️⃣ 入门级(无 GPU / 低端)¶
- CPU / 核显
- 内存 ≥ 16GB
👉 可跑:
- 1B / 3B
- 7B(INT4,极慢)
👉 工具:
- llama.cpp
🧠 2️⃣ 主流玩家(最常见)¶
👉 GPU:
- RTX 3060(12GB)
- RTX 4060(8GB)
👉 可跑:
- 7B / 8B(INT4 ✔)
- 13B(勉强)
👉 推荐模型:
deepseek-r1-distill-qwen-7bdeepseek-r1-distill-llama-8b
🧠 3️⃣ 高端单卡(最佳个人体验)¶
👉 GPU:
- RTX 3090 / 4090(24GB)
👉 可跑:
- 7B / 8B(飞快)
- 13B(很好)
- 32B(INT4 ✔ 可用)
👉 推荐:
- 主力:7B
- 高级任务:32B
🧠 4️⃣ 发烧级(多卡)¶
👉 GPU:
- 2×3090 / 4090
👉 可跑:
- 32B(流畅)
- 70B(勉强)
五、别忽略这个:上下文长度(隐形杀手)¶
👉 KV cache 会吃显存(很多人翻车)
例如:
| 模型 | context | 额外显存 |
|---|---|---|
| 7B | 8K | ~2GB |
| 32B | 8K | ~10GB |
👉 所以:
“能跑模型 ≠ 能开长上下文”