侧边栏壁纸
博主头像
SRE实践 博主等级

行动起来,活在当下

  • 累计撰写 22 篇文章
  • 累计创建 2 个标签
  • 累计收到 0 条评论

目 录CONTENT

文章目录

DeepSeek大模型了解与GPU等硬件资源计算

佚名
2025-02-27 / 0 评论 / 4 点赞 / 67 阅读 / 0 字
温馨提示:
部分素材来自网络,若不小心影响到您的利益,请联系我们删除。

随着AI服务的陆续普及,针对ai服务器的私有化部署的需求也逐渐增多,现整理一篇ai服务器的选型参考,供大家选配使用。考虑到deepseek的普及,本文重点介绍针对deepseek的ai服务器选项参考。

语言模型的发展历程

dps11.png

在 1966 年的早期发展阶段,语言模型基于文本规则化,输入受限,效果较差,代表程序有 ELIZA、SHRDLU,技术主要是文本存储索引。1990 年进入统计语言模型阶段,具备一定生成能力,能辅助解决部分任务,但受数据稀疏影响大,效果一般,代表模型有 n - gram,技术包括马尔科夫等。2013 年神经网络语言模型兴起,通过语言特征化、稠密特征化克服数据稀疏问题,代表模型有 RNN - LM、Word2vec,技术是词嵌入特征。2017 年模型升级跃迁,谷歌的 Self - Attention 自注意力和 Transformer 两项技术出现,显著提升了模型效果。2018 年预训练语言模型登场,能有效捕捉上下文语义,迁移能力提升,代表模型有 ELMO、Bert、GPT1/2,技术是 Transformer。2022 年进入大语言模型阶段,通用能力强,代表模型有 GPT3/4、T5、Claude,技术包括 Transformer 和 MoE(混合专家)。到 2023 年及之后,大语言模型持续发展,涌现出如 Gemini1/2、Qwen、DeepSeek、GLM4、LlaMA、Claude3、MistralAI 等。

语言模型的发展历程

dps12.png

从 2018 年谷歌的 Bert 和 OpenAI 的 GPT - 1 率先出现。随后每年都有各公司新模型推出,如 2019 年 OpenAI 的 GPT - 2,2020 年的 GPT - 3、Codex - 1 和 InstructGPT,2022 年谷歌的 Bard 和 PaLM2 等。到 2023 年,OpenAI 的 GPT - 4、DeepSeek 的 DeepSeek - llm - 7/67B 以及 Qwen 的 Qwen - 72B 等相继登场。2023 年底到 2024 年,各公司模型持续升级,如谷歌的 Gemini 1.0、OpenAI 的 GPT - 4o、Qwen 的 Qwen2 - 72B 和 Qwen1.5 - 72B、DeepSeek 的 DeepSeek - v2 等。2024 年底到 2025 年初,新的模型版本如 Gemini 2.0 Pro、OpenAI - o1、Deep Research、Qwen2.5 - MAX、DeepSeek - V3 - 671B、DeepSeek - R1 - 671B 也在不断涌现,显示出各模型能力持续提升的趋势。

DeepSeek能力全景

dps13.png

在辅助决策方面,包含数据分析、流程优化、任务分解等能力,可用于方案规划、风险评估等。知识与推理领域,有问答系统、知识推理、逻辑推理等,支持通用问答、专业领域问答。自然语言处理能力丰富,如语言理解、翻译与转换、文本分类等。文本生成与创作涵盖文案写作、诗歌创作、故事创作等。交互能力包括指令理解、多模态交互等,还涉及任务执行、任务协调。对话能力有关情感回应、上下文理解、多轮对话等。这些能力相互关联,展现了大语言模型广泛的应用潜力。

DeepSeek大模型性能表现

DeepSeek-V3

dps14.png

DeepSeek-V3 多项评测成绩超越了Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

DeepSeek-V1

dps15.png

DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。

DeepSeek性能表现

dps16.png

开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 671B 模型同时,通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区,其中32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。(信息来源于DeepSeek微信公众号)

DeepSeek模型分析

版本与精度大小

基于模型大小、精度和用户并发性计算服务器硬件资源需求的详细方法和公式。

基础公式:

{显存 (GB)} = \frac{\text{模型参数量} \times \text{单参数字节数} \times \text{框架系数}}{1024^3} + \text{运行时开销}

单参数字节数:FP32=4B,FP16=2B,INT8=1B,INT4=0.5B;FP8根据格式不同介于1~2B(E4M3为1B,E5M2为2B)

框架系数:1.2~1.5(涵盖中间变量、框架开销)。

运行时开销:单用户请求约0.05~0.2GB(与输入长度相关)。

量化技术影响:

FP8量化:可减少显存占用30%~50%,适用于NPU优化场景67。

INT8/INT4:显存需求减半或更多,但可能牺牲推理精度612。

模型名称参数量FP32/GBFP16/GBFP8/GBINT8/GBINT4/GB
DeepSeek-R1-Distill-Qwen-1.5B1.5B7.2~9.03.6~4.51.8~2.71.8~2.30.9~1.1
DeepSeek-R1-Distill-Qwen-7B7B33.6~42.016.8~21.08.4~12.68.4~10.54.2~5.3
DeepSeek-R1-Distill-Llama-8B8B38.4~48.019.2~24.09.6~14.49.6~12.04.8~6.0
DeepSeek-R1-Distill-Qwen-14B14B67.2~84.033.6~42.016.8~25.216.8~21.08.4~10.5
DeepSeek-R1-Distill-Qwen-32B32B153.6~192.076.8~96.038.4~57.638.4~48.019.2~24.0
DeepSeek-R1-Distill-Llama-70B70B336.0~420.0168.0~210.084.0~126.084.0~105.042.0~52.5
DeepSeek-R1-671B671B3220.8~4026.01610.4~2013.0805.2~1207.8805.2~1006.5402.6~503.3
DeepSeek-V3-671B671B3220.8~4026.01610.4~2013.0805.2~1207.8805.2~1006.5402.6~503.3

精度大小的区别

项目FP8FP16FP32INT8INT4
位数8 位16 位32 位8 位4 位
字节1 字节2 字节4 字节1 字节0.5 字节
数值范围约 ±2.4×10⁻¹⁵ 到 ±2.4×10¹⁵约 ±6.1×10⁻⁸ 到 ±6.5×10⁴约 ±1.4×10⁻⁴⁵ 到 ±3.4×10³⁸有符号:-128 到 127
无符号:0 到 255
有符号:-8 到 7;
无符号:0 到 15
有效数字位数约 2 位十进制有效数字约 3 到 4 位十进制有效数字约 7 位十进制有效数字整数精确表示整数精确表示
应用场景深度学习中的一些前沿研究和特定硬件加速场景,如在一些专门支持 FP8 的 AI 芯片上进行模型训练和推理深度学习中的模型训练和推理,尤其是在 GPU 等并行计算设备上,可用于加速计算和减少内存占用广泛应用于各种科学计算、工程计算、深度学习中的模型训练和推理等,是目前较为常用的精度类型深度学习中的量化训练和推理,图像和视频处理中的一些计算,用于减少模型存储和计算量主要用于一些对存储和计算资源要求极高,且对精度要求不特别高的场景,如特定的低功耗设备或对模型大小有严格限制的边缘计算场景
优缺点优点:计算速度快,内存占用小,适合在特定硬件上加速计算。
缺点:精度较低,适用场景相对较窄,对模型精度可能有一定影响
优点:计算速度快,内存占用仅为 FP32 的一半,能有效提高计算效率。
缺点:精度有限,在处理一些对精度要求较高的任务时可能会出现精度损失,导致模型性能下降
优点:精度较高,能满足大多数计算任务的精度需求。
缺点:相比 FP16 等,占用内存较大,计算速度相对较慢
优点:占用内存小,计算速度快,适合在资源受限的设备上运行。
缺点:无法表示小数,精度相对较低,在一些需要高精度的计算中可能不适用
优点:内存占用极小,计算速度极快。
缺点:精度非常有限,能表示的数值范围很小,适用场景非常有限,一般需要特殊的量化和反量化处理来保证模型性能

适用场景与优势

模型版本优势适用场景
DeepSeek7B模型轻量高效,部署成本低,响应速度快,适合入门级AI应用。小型任务处理、初步AI探索、智能客服、文本分类等。
DeepSeek14B模型性能与效率的平衡之选,适合中等规模的数据处理和分析任务。中等规模的数据分析、智能推荐系统等。
DeepSeek70B模型强大性能,适合复杂场景,推理机即可部署,满足大多数企业的高性能需求。大规模数据处理、复杂自然语言处理任务、智能决策支持等。
DeepSeek671B模型算力巅峰,支持千亿级参数,处理复杂任务游刃有余,高并发支持,响应速度更快,精准度高。超大规模数据处理、高并发用户请求、复杂文档生成等。

硬件资源计算

以下是基于模型大小、精度和用户并发性计算服务器硬件资源需求的详细方法和公式,含数据校验。

GPU显存计算
公式:

\text{GPU显存 (GB)} = \left( \frac{N \times P \times C_{\text{model}}}{1024^3} \right) + \left( U \times C_{\text{req}} \right)
  • 参数说明:
    • N: 模型参数量(例如 1.5B = 1.5 \times 10^9)。

    • P: 单参数字节数(FP16=2,FP32=4)。

    • C_{\text{model}}: 模型系数(1.2~1.5,涵盖中间变量和框架开销)。

    • U: 并发用户数。

    • C_{\text{req}}: 单请求显存占用(通常 0.05~0.2 GB,依赖输入数据复杂度)。

示例:

  • 模型参数量 1.5\text{B},FP16精度,并发用户数50。
{GPU显存} = \left( \frac{1.5 \times 10^9 \times 2 \times 1.3}{1024^3} \right) + (50 \times 0.1) \approx 3.63 + 5 = 8.63 \text{ GB}

推荐配置:至少12GB显存的GPU(如 NVIDIA RTX 3090)。

硬盘空间计算

公式:

{硬盘空间 (GB)} = \left( \frac{N \times P \times R}{1024^3} \right) + S\_{\text{other}}
  • 参数说明:
    • R: 冗余系数(建议 2~3,涵盖模型版本和备份)。
    • S_{\text{other}} : 其他存储需求(日志、缓存等,建议预留 100~200 GB)。
      示例:
  • 模型参数量1.5\text{B},FP16精度。
{硬盘空间} = \left( \frac{1.5 \times 10^9 \times 2 \times 2}{1024^3} \right) + 100 \approx 5.58 + 100 = 105.58 \text{ GB}

推荐配置:至少200GB SSD/NVMe硬盘。

内存资源计算:

{内存 (GB)} = \left( \frac{N \times P}{1024^3} \right) + \left( U \times M\_{\text{req}} \right) + S\_{\text{system}}
  • 参数说明:
    • M_{\text{req}} : 单请求内存占用(通常 0.02~0.1 GB)。
    • S_{\text{system}}: 系统预留内存(建议 4~8 GB)。
      示例:
  • 模型参数量 1.5\text{B},FP16精度,并发用户数50。
{内存} = \left( \frac{1.5 \times 10^9 \times 2}{1024^3} \right) + (50 \times 0.05) + 4 \approx 2.79 + 2.5 + 4 = 9.29 \text{ GB}

推荐配置:至少16GB DDR4内存。

数据校验与修正

显存校验:

  • 若计算结果超过单卡显存容量(如 24GB),需优化策略:
  • 使用动态批处理(合并请求,降低显存占用)。
  • 采用模型并行或多卡推理(如 NVIDIA A100 集群)。
  • 应用量化技术(如 FP8/INT8 精度压缩模型)。

硬盘校验:若模型版本较多或日志量大,按需扩展存储(如云存储挂载)。

内存校验:若内存不足,增加物理内存或优化数据加载策略(如流式处理)。

示例配置表

资源类型计算公式示例结果(50用户)推荐配置
GPU显存1.3N + 0.1U8.63 GBNVIDIA RTX 3090 (24GB)
硬盘空间2N + 100105 GB200GB SSD
内存N + 0.05U + 49.29 GB16GB DDR4

注:实际部署需结合框架优化(如TensorRT、ONNX Runtime)和业务场景调整参数。

实际所需配置表

模型版本用户数FP16/2字节GPU/GB硬盘/GB内存/GB
DeepSeek-R1-1.5B100213.63105.5911.79
DeepSeek-R1-7B100226.94126.0122.04
DeepSeek-R1-8B100229.36129.8023.90
DeepSeek-R1-14B100243.88152.1535.08
DeepSeek-R1-32B100287.44219.2168.60
DeepSeek-R1-70B1002179.40360.77139.39
DeepSeek-R1-671B10021633.822599.671258.83
DeepSeek-V3-671B10021633.822599.671258.83

通过以上方式,可根据不同的模型版本、用户并发数、模型精度,从而实现快速计算所需的硬件资源配置。综上,如有问题欢迎交流。

4

评论区