DeepSeek大模型了解与GPU等硬件资源计算-SRE实践

随着AI服务的陆续普及，针对ai服务器的私有化部署的需求也逐渐增多，现整理一篇ai服务器的选型参考，供大家选配使用。考虑到deepseek的普及，本文重点介绍针对deepseek的ai服务器选项参考。

语言模型的发展历程

在 1966 年的早期发展阶段，语言模型基于文本规则化，输入受限，效果较差，代表程序有 ELIZA、SHRDLU，技术主要是文本存储索引。1990 年进入统计语言模型阶段，具备一定生成能力，能辅助解决部分任务，但受数据稀疏影响大，效果一般，代表模型有 n - gram，技术包括马尔科夫等。2013 年神经网络语言模型兴起，通过语言特征化、稠密特征化克服数据稀疏问题，代表模型有 RNN - LM、Word2vec，技术是词嵌入特征。2017 年模型升级跃迁，谷歌的 Self - Attention 自注意力和 Transformer 两项技术出现，显著提升了模型效果。2018 年预训练语言模型登场，能有效捕捉上下文语义，迁移能力提升，代表模型有 ELMO、Bert、GPT1/2，技术是 Transformer。2022 年进入大语言模型阶段，通用能力强，代表模型有 GPT3/4、T5、Claude，技术包括 Transformer 和 MoE（混合专家）。到 2023 年及之后，大语言模型持续发展，涌现出如 Gemini1/2、Qwen、DeepSeek、GLM4、LlaMA、Claude3、MistralAI 等。

语言模型的发展历程

从 2018 年谷歌的 Bert 和 OpenAI 的 GPT - 1 率先出现。随后每年都有各公司新模型推出，如 2019 年 OpenAI 的 GPT - 2，2020 年的 GPT - 3、Codex - 1 和 InstructGPT，2022 年谷歌的 Bard 和 PaLM2 等。到 2023 年，OpenAI 的 GPT - 4、DeepSeek 的 DeepSeek - llm - 7/67B 以及 Qwen 的 Qwen - 72B 等相继登场。2023 年底到 2024 年，各公司模型持续升级，如谷歌的 Gemini 1.0、OpenAI 的 GPT - 4o、Qwen 的 Qwen2 - 72B 和 Qwen1.5 - 72B、DeepSeek 的 DeepSeek - v2 等。2024 年底到 2025 年初，新的模型版本如 Gemini 2.0 Pro、OpenAI - o1、Deep Research、Qwen2.5 - MAX、DeepSeek - V3 - 671B、DeepSeek - R1 - 671B 也在不断涌现，显示出各模型能力持续提升的趋势。

DeepSeek能力全景

在辅助决策方面，包含数据分析、流程优化、任务分解等能力，可用于方案规划、风险评估等。知识与推理领域，有问答系统、知识推理、逻辑推理等，支持通用问答、专业领域问答。自然语言处理能力丰富，如语言理解、翻译与转换、文本分类等。文本生成与创作涵盖文案写作、诗歌创作、故事创作等。交互能力包括指令理解、多模态交互等，还涉及任务执行、任务协调。对话能力有关情感回应、上下文理解、多轮对话等。这些能力相互关联，展现了大语言模型广泛的应用潜力。

DeepSeek大模型性能表现

DeepSeek-V3

DeepSeek-V3 多项评测成绩超越了Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型，并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

DeepSeek-V1

DeepSeek-R1 在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩 OpenAI o1 正式版。

DeepSeek性能表现

开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 671B 模型同时，通过 DeepSeek-R1 的输出，蒸馏了 6 个小模型开源给社区，其中32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。（信息来源于DeepSeek微信公众号）

DeepSeek模型分析

版本与精度大小

基于模型大小、精度和用户并发性计算服务器硬件资源需求的详细方法和公式。

基础公式：

{显存 (GB)} = \frac{\text{模型参数量} \times \text{单参数字节数} \times \text{框架系数}}{1024^3} + \text{运行时开销}

单参数字节数：FP32=4B，FP16=2B，INT8=1B，INT4=0.5B；FP8根据格式不同介于1~2B（E4M3为1B，E5M2为2B）

框架系数：1.2~1.5（涵盖中间变量、框架开销）。

运行时开销：单用户请求约0.05~0.2GB（与输入长度相关）。

量化技术影响：

FP8量化：可减少显存占用30%~50%，适用于NPU优化场景67。

INT8/INT4：显存需求减半或更多，但可能牺牲推理精度612。

模型名称	参数量	FP32/GB	FP16/GB	FP8/GB	INT8/GB	INT4/GB
DeepSeek-R1-Distill-Qwen-1.5B	1.5B	7.2~9.0	3.6~4.5	1.8~2.7	1.8~2.3	0.9~1.1
DeepSeek-R1-Distill-Qwen-7B	7B	33.6~42.0	16.8~21.0	8.4~12.6	8.4~10.5	4.2~5.3
DeepSeek-R1-Distill-Llama-8B	8B	38.4~48.0	19.2~24.0	9.6~14.4	9.6~12.0	4.8~6.0
DeepSeek-R1-Distill-Qwen-14B	14B	67.2~84.0	33.6~42.0	16.8~25.2	16.8~21.0	8.4~10.5
DeepSeek-R1-Distill-Qwen-32B	32B	153.6~192.0	76.8~96.0	38.4~57.6	38.4~48.0	19.2~24.0
DeepSeek-R1-Distill-Llama-70B	70B	336.0~420.0	168.0~210.0	84.0~126.0	84.0~105.0	42.0~52.5
DeepSeek-R1-671B	671B	3220.8~4026.0	1610.4~2013.0	805.2~1207.8	805.2~1006.5	402.6~503.3
DeepSeek-V3-671B	671B	3220.8~4026.0	1610.4~2013.0	805.2~1207.8	805.2~1006.5	402.6~503.3

精度大小的区别

项目	FP8	FP16	FP32	INT8	INT4
位数	8 位	16 位	32 位	8 位	4 位
字节	1 字节	2 字节	4 字节	1 字节	0.5 字节
数值范围	约 ±2.4×10⁻¹⁵ 到 ±2.4×10¹⁵	约 ±6.1×10⁻⁸ 到 ±6.5×10⁴	约 ±1.4×10⁻⁴⁵ 到 ±3.4×10³⁸	有符号：-128 到 127 无符号：0 到 255	有符号：-8 到 7；无符号：0 到 15
有效数字位数	约 2 位十进制有效数字	约 3 到 4 位十进制有效数字	约 7 位十进制有效数字	整数精确表示	整数精确表示
应用场景	深度学习中的一些前沿研究和特定硬件加速场景，如在一些专门支持 FP8 的 AI 芯片上进行模型训练和推理	深度学习中的模型训练和推理，尤其是在 GPU 等并行计算设备上，可用于加速计算和减少内存占用	广泛应用于各种科学计算、工程计算、深度学习中的模型训练和推理等，是目前较为常用的精度类型	深度学习中的量化训练和推理，图像和视频处理中的一些计算，用于减少模型存储和计算量	主要用于一些对存储和计算资源要求极高，且对精度要求不特别高的场景，如特定的低功耗设备或对模型大小有严格限制的边缘计算场景
优缺点	优点：计算速度快，内存占用小，适合在特定硬件上加速计算。缺点：精度较低，适用场景相对较窄，对模型精度可能有一定影响	优点：计算速度快，内存占用仅为 FP32 的一半，能有效提高计算效率。缺点：精度有限，在处理一些对精度要求较高的任务时可能会出现精度损失，导致模型性能下降	优点：精度较高，能满足大多数计算任务的精度需求。缺点：相比 FP16 等，占用内存较大，计算速度相对较慢	优点：占用内存小，计算速度快，适合在资源受限的设备上运行。缺点：无法表示小数，精度相对较低，在一些需要高精度的计算中可能不适用	优点：内存占用极小，计算速度极快。缺点：精度非常有限，能表示的数值范围很小，适用场景非常有限，一般需要特殊的量化和反量化处理来保证模型性能

适用场景与优势

模型版本	优势	适用场景
DeepSeek7B模型	轻量高效，部署成本低，响应速度快，适合入门级AI应用。	小型任务处理、初步AI探索、智能客服、文本分类等。
DeepSeek14B模型	性能与效率的平衡之选，适合中等规模的数据处理和分析任务。	中等规模的数据分析、智能推荐系统等。
DeepSeek70B模型	强大性能，适合复杂场景，推理机即可部署，满足大多数企业的高性能需求。	大规模数据处理、复杂自然语言处理任务、智能决策支持等。
DeepSeek671B模型	算力巅峰，支持千亿级参数，处理复杂任务游刃有余，高并发支持，响应速度更快，精准度高。	超大规模数据处理、高并发用户请求、复杂文档生成等。

硬件资源计算

以下是基于模型大小、精度和用户并发性计算服务器硬件资源需求的详细方法和公式，含数据校验。

GPU显存计算
公式：

\text{GPU显存 (GB)} = \left( \frac{N \times P \times C_{\text{model}}}{1024^3} \right) + \left( U \times C_{\text{req}} \right)

参数说明：
- $N$ : 模型参数量（例如 1.5B = $1.5 \times 10^9$ ）。
- $P$ : 单参数字节数（FP16=2，FP32=4）。
- $C_{\text{model}}$ : 模型系数（1.2~1.5，涵盖中间变量和框架开销）。
- $U$ : 并发用户数。
- $C_{\text{req}}$ : 单请求显存占用（通常 0.05~0.2 GB，依赖输入数据复杂度）。

示例：

模型参数量 $1.5\text{B}$ ，FP16精度，并发用户数50。

{GPU显存} = \left( \frac{1.5 \times 10^9 \times 2 \times 1.3}{1024^3} \right) + (50 \times 0.1) \approx 3.63 + 5 = 8.63 \text{ GB}

推荐配置：至少12GB显存的GPU（如 NVIDIA RTX 3090）。

硬盘空间计算

公式：

{硬盘空间 (GB)} = \left( \frac{N \times P \times R}{1024^3} \right) + S\_{\text{other}}

参数说明：
- $R$ : 冗余系数（建议 2~3，涵盖模型版本和备份）。
- $S_{\text{other}}$ : 其他存储需求（日志、缓存等，建议预留 100~200 GB）。
  示例：
模型参数量 $1.5\text{B}$ ，FP16精度。

{硬盘空间} = \left( \frac{1.5 \times 10^9 \times 2 \times 2}{1024^3} \right) + 100 \approx 5.58 + 100 = 105.58 \text{ GB}

推荐配置：至少200GB SSD/NVMe硬盘。

内存资源计算:

{内存 (GB)} = \left( \frac{N \times P}{1024^3} \right) + \left( U \times M\_{\text{req}} \right) + S\_{\text{system}}

参数说明：
- $M_{\text{req}}$ : 单请求内存占用（通常 0.02~0.1 GB）。
- $S_{\text{system}}$ : 系统预留内存（建议 4~8 GB）。
  示例：
模型参数量 $1.5\text{B}$ ，FP16精度，并发用户数50。

{内存} = \left( \frac{1.5 \times 10^9 \times 2}{1024^3} \right) + (50 \times 0.05) + 4 \approx 2.79 + 2.5 + 4 = 9.29 \text{ GB}

推荐配置：至少16GB DDR4内存。

数据校验与修正

显存校验：

若计算结果超过单卡显存容量（如 24GB），需优化策略：
使用动态批处理（合并请求，降低显存占用）。
采用模型并行或多卡推理（如 NVIDIA A100 集群）。
应用量化技术（如 FP8/INT8 精度压缩模型）。

硬盘校验：若模型版本较多或日志量大，按需扩展存储（如云存储挂载）。

内存校验：若内存不足，增加物理内存或优化数据加载策略（如流式处理）。

示例配置表

资源类型	计算公式	示例结果（50用户）	推荐配置
GPU显存	$1.3N + 0.1U$	8.63 GB	NVIDIA RTX 3090 (24GB)
硬盘空间	$2N + 100$	105 GB	200GB SSD
内存	$N + 0.05U + 4$	9.29 GB	16GB DDR4

注：实际部署需结合框架优化（如TensorRT、ONNX Runtime）和业务场景调整参数。

实际所需配置表

模型版本	用户数	FP16/2字节	GPU/GB	硬盘/GB	内存/GB
DeepSeek-R1-1.5B	100	2	13.63	105.59	11.79
DeepSeek-R1-7B	100	2	26.94	126.01	22.04
DeepSeek-R1-8B	100	2	29.36	129.80	23.90
DeepSeek-R1-14B	100	2	43.88	152.15	35.08
DeepSeek-R1-32B	100	2	87.44	219.21	68.60
DeepSeek-R1-70B	100	2	179.40	360.77	139.39
DeepSeek-R1-671B	100	2	1633.82	2599.67	1258.83
DeepSeek-V3-671B	100	2	1633.82	2599.67	1258.83

通过以上方式，可根据不同的模型版本、用户并发数、模型精度，从而实现快速计算所需的硬件资源配置。综上，如有问题欢迎交流。

目录CONTENT

DeepSeek大模型了解与GPU等硬件资源计算

语言模型的发展历程

语言模型的发展历程

DeepSeek能力全景

DeepSeek大模型性能表现

DeepSeek-V3

DeepSeek-V1

DeepSeek性能表现

DeepSeek模型分析

版本与精度大小

硬件资源计算

评论区