想要本地部署deepseek，先搞清楚这个参数

2025-2-20

最近deepseek爆火，一方面是其低廉的成本导致国内外大厂向deepseek抛出橄榄枝，一方面是deepseek完全开源，自己就可以在本地部署自己想要的版本，另外就是万恶的资本主义不停的攻击深度求索的官网，导致我们在使用的时候经常面临“服务器出了一点问题”的窘境，这就导致很多小伙伴有了想本地部署一套deepseek的想法，那么在我们部署之前，就要搞清楚我们应该用哪个版本的deepseek才能正常运行起来呢？

一、deepseek版本

现在的版本主要有 1.5B、7B、8B、14B、32B、70B、671B ，不同版本对GPU的消耗也是不同的，而这里B的意思是英文单词“billion”的首字母缩写，代表“十亿”。‌

二、版本区别

参数规模

1.5B / 7B / 8B：适用于本地部署，资源消耗低，适合轻量级任务
14B / 32B：更强的推理能力，适用于更复杂的任务（如代码补全、数据分析）
70B / 671B：更接近 GPT-4 级别，能进行更复杂的推理和决策

推理速度和部署成本

1.5B/7B/8B 可在消费级 GPU（如 RTX 3090、4090）上运行
14B/32B 需要更高端的 GPU（A100/H100）
70B/671B 主要面向大规模云端推理

适用场景

1.5B/7B/8B：轻量级 AI 助手、智能问答、本地 AI
14B/32B：代码生成、复杂问答、知识推理
70B/671B：高级 AI 助手、科研分析、数据挖掘

三、显存需求计算公式

显存占用由参数存储 + 训练/推理额外开销决定：

参数存储

FP32（全精度）：每参数4字节
FP16（半精度）：每参数2字节
INT8量化：每参数1字节

计算公式：

显存（GB）= 参数数量 × 每参数字节数 ÷ 1e9

训练阶段总显存

需额外存储梯度、优化器状态和激活值：

梯度：与参数同类型（如FP32需4字节/参数）
优化器状态：Adam优化器需存储动量和方差（FP32，共8字节/参数）
激活值：与批次大小、序列长度强相关（约占20%~50%总显存）

经验公式：

训练显存 ≈ 参数数量 × 20字节
（FP16混合精度下，优化器状态仍为FP32）

推理阶段总显存

仅需加载参数和少量激活值：
推理显存 ≈ 参数存储 × 1.2~1.5（激活值占额外20%-50%）

四、GPU配置推荐

模型	训练显存需求	推理显存需求	推荐GPU配置	关键技术
1.5B	30 GB（FP16混合精度）	5~7 GB（FP16）	单卡RTX 3090 24GB/Tesla T4 16GB	ZeRO-1 + 梯度检查点
7B	140 GB（FP16混合精度）	20~25 GB（FP16）	单卡A100 80GB 或多卡A100 40GB ×2	ZeRO-2 + 模型并行
70B	1.4 TB（FP16混合精度）	140~200 GB（FP16）	8卡A100 80GB集群（模型并行+流水线）	ZeRO-3 + 8-bit量化 + 激活卸载
671B	13.42 TB（FP16混合精度）	1.3~2 TB（FP16）	128卡H100集群（张量/流水线并行）	混合并行 + 4-bit量化 + 内存优化框架

五、总结

1.5B~7B模型：单卡或少量GPU即可部署，适合中小企业和研究团队。

70B及以上模型：需大规模GPU集群和分布式训练框架（如DeepSpeed、Megatron-LM），成本高昂，通常由云服务商或大厂支持。

显存优化优先级：量化 > 模型并行 > ZeRO > 梯度检查点。

文章作者：老宋是菜鸡
文章标题：想要本地部署deepseek，先搞清楚这个参数
文章地址： https://www.wnboy.com/deepseek-b.html
资源需求或投诉建议请： 📝在线留言
侵权删除： enbings@163.com

本站一切资源不代表本站立场，不代表本站赞同其观点，不对其真实性负责；本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系我们删除处理，如您发现本站提供资源链接失效或有违规现象，请联系我们处理： enbings@163.com

THE END

VCenter虚拟机安装部署VMware Tools

<<上一篇

Rocky9.5配置阿里云yum源

下一篇>>