随着AI服务的陆续普及,针对ai服务器的私有化部署的需求也逐渐增多,现整理一篇ai服务器的选型参考,供大家选配使用。考虑到deepseek的普及,本文重点介绍针对deepseek的ai服务器选项参考。
语言模型的发展历程
在 1966 年的早期发展阶段,语言模型基于文本规则化,输入受限,效果较差,代表程序有 ELIZA、SHRDLU,技术主要是文本存储索引。1990 年进入统计语言模型阶段,具备一定生成能力,能辅助解决部分任务,但受数据稀疏影响大,效果一般,代表模型有 n - gram,技术包括马尔科夫等。2013 年神经网络语言模型兴起,通过语言特征化、稠密特征化克服数据稀疏问题,代表模型有 RNN - LM、Word2vec,技术是词嵌入特征。2017 年模型升级跃迁,谷歌的 Self - Attention 自注意力和 Transformer 两项技术出现,显著提升了模型效果。2018 年预训练语言模型登场,能有效捕捉上下文语义,迁移能力提升,代表模型有 ELMO、Bert、GPT1/2,技术是 Transformer。2022 年进入大语言模型阶段,通用能力强,代表模型有 GPT3/4、T5、Claude,技术包括 Transformer 和 MoE(混合专家)。到 2023 年及之后,大语言模型持续发展,涌现出如 Gemini1/2、Qwen、DeepSeek、GLM4、LlaMA、Claude3、MistralAI 等。
语言模型的发展历程
从 2018 年谷歌的 Bert 和 OpenAI 的 GPT - 1 率先出现。随后每年都有各公司新模型推出,如 2019 年 OpenAI 的 GPT - 2,2020 年的 GPT - 3、Codex - 1 和 InstructGPT,2022 年谷歌的 Bard 和 PaLM2 等。到 2023 年,OpenAI 的 GPT - 4、DeepSeek 的 DeepSeek - llm - 7/67B 以及 Qwen 的 Qwen - 72B 等相继登场。2023 年底到 2024 年,各公司模型持续升级,如谷歌的 Gemini 1.0、OpenAI 的 GPT - 4o、Qwen 的 Qwen2 - 72B 和 Qwen1.5 - 72B、DeepSeek 的 DeepSeek - v2 等。2024 年底到 2025 年初,新的模型版本如 Gemini 2.0 Pro、OpenAI - o1、Deep Research、Qwen2.5 - MAX、DeepSeek - V3 - 671B、DeepSeek - R1 - 671B 也在不断涌现,显示出各模型能力持续提升的趋势。
DeepSeek能力全景
在辅助决策方面,包含数据分析、流程优化、任务分解等能力,可用于方案规划、风险评估等。知识与推理领域,有问答系统、知识推理、逻辑推理等,支持通用问答、专业领域问答。自然语言处理能力丰富,如语言理解、翻译与转换、文本分类等。文本生成与创作涵盖文案写作、诗歌创作、故事创作等。交互能力包括指令理解、多模态交互等,还涉及任务执行、任务协调。对话能力有关情感回应、上下文理解、多轮对话等。这些能力相互关联,展现了大语言模型广泛的应用潜力。
DeepSeek大模型性能表现
DeepSeek-V3
DeepSeek-V3 多项评测成绩超越了Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。
DeepSeek-V1
DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。
DeepSeek性能表现
开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 671B 模型同时,通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区,其中32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。(信息来源于DeepSeek微信公众号)
DeepSeek模型分析
版本与精度大小
基于模型大小、精度和用户并发性计算服务器硬件资源需求的详细方法和公式。
基础公式:
单参数字节数:FP32=4B,FP16=2B,INT8=1B,INT4=0.5B;FP8根据格式不同介于1~2B(E4M3为1B,E5M2为2B)
框架系数:1.2~1.5(涵盖中间变量、框架开销)。
运行时开销:单用户请求约0.05~0.2GB(与输入长度相关)。
量化技术影响:
FP8量化:可减少显存占用30%~50%,适用于NPU优化场景67。
INT8/INT4:显存需求减半或更多,但可能牺牲推理精度612。
模型名称 | 参数量 | FP32/GB | FP16/GB | FP8/GB | INT8/GB | INT4/GB |
---|---|---|---|---|---|---|
DeepSeek-R1-Distill-Qwen-1.5B | 1.5B | 7.2~9.0 | 3.6~4.5 | 1.8~2.7 | 1.8~2.3 | 0.9~1.1 |
DeepSeek-R1-Distill-Qwen-7B | 7B | 33.6~42.0 | 16.8~21.0 | 8.4~12.6 | 8.4~10.5 | 4.2~5.3 |
DeepSeek-R1-Distill-Llama-8B | 8B | 38.4~48.0 | 19.2~24.0 | 9.6~14.4 | 9.6~12.0 | 4.8~6.0 |
DeepSeek-R1-Distill-Qwen-14B | 14B | 67.2~84.0 | 33.6~42.0 | 16.8~25.2 | 16.8~21.0 | 8.4~10.5 |
DeepSeek-R1-Distill-Qwen-32B | 32B | 153.6~192.0 | 76.8~96.0 | 38.4~57.6 | 38.4~48.0 | 19.2~24.0 |
DeepSeek-R1-Distill-Llama-70B | 70B | 336.0~420.0 | 168.0~210.0 | 84.0~126.0 | 84.0~105.0 | 42.0~52.5 |
DeepSeek-R1-671B | 671B | 3220.8~4026.0 | 1610.4~2013.0 | 805.2~1207.8 | 805.2~1006.5 | 402.6~503.3 |
DeepSeek-V3-671B | 671B | 3220.8~4026.0 | 1610.4~2013.0 | 805.2~1207.8 | 805.2~1006.5 | 402.6~503.3 |
精度大小的区别
项目 | FP8 | FP16 | FP32 | INT8 | INT4 |
---|---|---|---|---|---|
位数 | 8 位 | 16 位 | 32 位 | 8 位 | 4 位 |
字节 | 1 字节 | 2 字节 | 4 字节 | 1 字节 | 0.5 字节 |
数值范围 | 约 ±2.4×10⁻¹⁵ 到 ±2.4×10¹⁵ | 约 ±6.1×10⁻⁸ 到 ±6.5×10⁴ | 约 ±1.4×10⁻⁴⁵ 到 ±3.4×10³⁸ | 有符号:-128 到 127 无符号:0 到 255 | 有符号:-8 到 7; 无符号:0 到 15 |
有效数字位数 | 约 2 位十进制有效数字 | 约 3 到 4 位十进制有效数字 | 约 7 位十进制有效数字 | 整数精确表示 | 整数精确表示 |
应用场景 | 深度学习中的一些前沿研究和特定硬件加速场景,如在一些专门支持 FP8 的 AI 芯片上进行模型训练和推理 | 深度学习中的模型训练和推理,尤其是在 GPU 等并行计算设备上,可用于加速计算和减少内存占用 | 广泛应用于各种科学计算、工程计算、深度学习中的模型训练和推理等,是目前较为常用的精度类型 | 深度学习中的量化训练和推理,图像和视频处理中的一些计算,用于减少模型存储和计算量 | 主要用于一些对存储和计算资源要求极高,且对精度要求不特别高的场景,如特定的低功耗设备或对模型大小有严格限制的边缘计算场景 |
优缺点 | 优点:计算速度快,内存占用小,适合在特定硬件上加速计算。 缺点:精度较低,适用场景相对较窄,对模型精度可能有一定影响 | 优点:计算速度快,内存占用仅为 FP32 的一半,能有效提高计算效率。 缺点:精度有限,在处理一些对精度要求较高的任务时可能会出现精度损失,导致模型性能下降 | 优点:精度较高,能满足大多数计算任务的精度需求。 缺点:相比 FP16 等,占用内存较大,计算速度相对较慢 | 优点:占用内存小,计算速度快,适合在资源受限的设备上运行。 缺点:无法表示小数,精度相对较低,在一些需要高精度的计算中可能不适用 | 优点:内存占用极小,计算速度极快。 缺点:精度非常有限,能表示的数值范围很小,适用场景非常有限,一般需要特殊的量化和反量化处理来保证模型性能 |
适用场景与优势
模型版本 | 优势 | 适用场景 |
---|---|---|
DeepSeek7B模型 | 轻量高效,部署成本低,响应速度快,适合入门级AI应用。 | 小型任务处理、初步AI探索、智能客服、文本分类等。 |
DeepSeek14B模型 | 性能与效率的平衡之选,适合中等规模的数据处理和分析任务。 | 中等规模的数据分析、智能推荐系统等。 |
DeepSeek70B模型 | 强大性能,适合复杂场景,推理机即可部署,满足大多数企业的高性能需求。 | 大规模数据处理、复杂自然语言处理任务、智能决策支持等。 |
DeepSeek671B模型 | 算力巅峰,支持千亿级参数,处理复杂任务游刃有余,高并发支持,响应速度更快,精准度高。 | 超大规模数据处理、高并发用户请求、复杂文档生成等。 |
硬件资源计算
以下是基于模型大小、精度和用户并发性计算服务器硬件资源需求的详细方法和公式,含数据校验。
GPU显存计算
公式:
- 参数说明:
-
N: 模型参数量(例如 1.5B = 1.5 \times 10^9)。
-
P: 单参数字节数(FP16=2,FP32=4)。
-
C_{\text{model}}: 模型系数(1.2~1.5,涵盖中间变量和框架开销)。
-
U: 并发用户数。
-
C_{\text{req}}: 单请求显存占用(通常 0.05~0.2 GB,依赖输入数据复杂度)。
-
示例:
- 模型参数量 1.5\text{B},FP16精度,并发用户数50。
推荐配置:至少12GB显存的GPU(如 NVIDIA RTX 3090)。
硬盘空间计算
公式:
- 参数说明:
- R: 冗余系数(建议 2~3,涵盖模型版本和备份)。
- S_{\text{other}} : 其他存储需求(日志、缓存等,建议预留 100~200 GB)。
示例:
- 模型参数量1.5\text{B},FP16精度。
推荐配置:至少200GB SSD/NVMe硬盘。
内存资源计算:
- 参数说明:
- M_{\text{req}} : 单请求内存占用(通常 0.02~0.1 GB)。
- S_{\text{system}}: 系统预留内存(建议 4~8 GB)。
示例:
- 模型参数量 1.5\text{B},FP16精度,并发用户数50。
推荐配置:至少16GB DDR4内存。
数据校验与修正
显存校验:
- 若计算结果超过单卡显存容量(如 24GB),需优化策略:
- 使用动态批处理(合并请求,降低显存占用)。
- 采用模型并行或多卡推理(如 NVIDIA A100 集群)。
- 应用量化技术(如 FP8/INT8 精度压缩模型)。
硬盘校验:若模型版本较多或日志量大,按需扩展存储(如云存储挂载)。
内存校验:若内存不足,增加物理内存或优化数据加载策略(如流式处理)。
示例配置表
资源类型 | 计算公式 | 示例结果(50用户) | 推荐配置 |
---|---|---|---|
GPU显存 | 1.3N + 0.1U | 8.63 GB | NVIDIA RTX 3090 (24GB) |
硬盘空间 | 2N + 100 | 105 GB | 200GB SSD |
内存 | N + 0.05U + 4 | 9.29 GB | 16GB DDR4 |
注:实际部署需结合框架优化(如TensorRT、ONNX Runtime)和业务场景调整参数。
实际所需配置表
模型版本 | 用户数 | FP16/2字节 | GPU/GB | 硬盘/GB | 内存/GB |
---|---|---|---|---|---|
DeepSeek-R1-1.5B | 100 | 2 | 13.63 | 105.59 | 11.79 |
DeepSeek-R1-7B | 100 | 2 | 26.94 | 126.01 | 22.04 |
DeepSeek-R1-8B | 100 | 2 | 29.36 | 129.80 | 23.90 |
DeepSeek-R1-14B | 100 | 2 | 43.88 | 152.15 | 35.08 |
DeepSeek-R1-32B | 100 | 2 | 87.44 | 219.21 | 68.60 |
DeepSeek-R1-70B | 100 | 2 | 179.40 | 360.77 | 139.39 |
DeepSeek-R1-671B | 100 | 2 | 1633.82 | 2599.67 | 1258.83 |
DeepSeek-V3-671B | 100 | 2 | 1633.82 | 2599.67 | 1258.83 |
通过以上方式,可根据不同的模型版本、用户并发数、模型精度,从而实现快速计算所需的硬件资源配置。综上,如有问题欢迎交流。
评论区