大模型（LLMs）显存问题面

复制
全文

下载
全文

大模型（LLMs）显存问题面

1. 大模型大概有多大，模型文件有多大?

一般放出来的模型文件都是 fp16 的，假设是一个 n B 的模型，那么模型文件占 2n G，fp16

加载到显存里做推理也是占 2n G，对外的 pr 都是 10n 亿参数的模型。

2. 能否用 4 * v100 32G 训练 vicuna 65b？

不能。

首先，llama 65b 的权重需要 5* v100 32G 才能完整加载到 GPU。

其次，vicuna 使用 flash-attention 加速训练，暂不支持 v100，需要 turing 架构之后的显卡。

（fastchat 上可以通过调用 train 脚本训练 vicuna 而非 train_mem，其实也是可以训练的）

3. 如果就是想要试试 65b 模型，但是显存不多怎么办？

最少大概 50g 显存，可以在 llama-65b-int4（

（gptq）模型基础上 LoRA[6]，当然各种库要安装

定制版本的。

4. nB 模型推理需要多少显存？

考虑模型参数都是 fp16，2nG 的显存能把模型加载。

5. nB 模型训练需要多少显存？

基础显存：模型参数+梯度+优化器，总共 16nG。

activation 占用显存，和 max len、batch size 有关。

解释：优化器部分必须用 fp32（

（乎 fp16 会导致训练不稳定）

，所以应该是 2+2+12=16，参

考 ZeRO 论文。

注：以上算数不够直观，举个例子？

7B 的 vicuna 在 fsdp 下总共 160G 显存勉强可以训练。（按照上面计算 7*16=112G 是基础显

存）所以全量训练准备显存 20nG 大概是最低要求，除非内存充足，显存不够 offload 内存

补。

6. 如何估算模型所需的 RAM？

首先，我们需要了解如何根据参数量估计模型大致所需的 RAM，这在实践中有很重要的参

考意义。我们需要通过估算设置 batch_size，设置模型精度，选择微调方法和参数分布方法

等。接下来，我们用 LLaMA-6B 模型为例估算其大致需要的内存。

首先考虑精度对所需内存的影响：

fp32 精度，一个参数需要 32 bits, 4 bytes.

fp16 精度，一个参数需要 16 bits, 2 bytes.

int8 精度，一个参数需要 8 bits, 1 byte.

其次，考虑模型需要的 RAM 大致分三个部分：

模型参数

梯度

优化器参数

模型参数：等于参数量*每个参数所需内存。

对于 fp32，LLaMA-6B 需要 6B*4 bytes = 24GB 内存

对于 int8，LLaMA-6B 需要 6B*1 byte = 6GB

梯度：同上，等于参数量*每个梯度参数所需内存。

优化器参数：不同的优化器所储存的参数量不同。

对于常用的 AdamW 来说，需要储存两倍的模型参数（用来储存一阶和二阶 momentum）。

fp32 的 LLaMA-6B，AdamW 需要 6B*8 bytes = 48 GB

int8 的 LLaMA-6B，AdamW 需要 6B*2 bytes = 12 GB

除此之外，CUDA kernel 也会占据一些 RAM，大概 1.3GB 左右，查看方式如下。

> torch.ones((1，1)).to("cuda")

> print_gpu_utilization()

>>>

GPU memory occupied: 1343 MB

综上，int8 精度的 LLaMA-6B 模型部分大致需要 6GB+6GB+12GB+1.3GB = 25.3GB 左右。

再根据 LLaMA 的架构（hidden_size = 4096, intermediate_size =11008, num_hidden_layers = 32,

context_length = 2048）计算中间变量内存。

每个 instance 需要：

(4096 +11008)* 2048 *32 * 1byte = 990MB

所以一张 A100（

（80GB RAM）大概可以在 int8 精度；batch_size = 50 的设定下进行全参数

训练。查看消费级显卡的内存和算力：

2023 GPU Benchmark and Graphics Card Comparison Chart

https://www.gpucheck.com/gpu-benchmark-graphics-card-comparison-chart

7. 如何评估你的显卡利用率

zero3 如果没有 nvlink，多卡训练下会变慢。但是一直不知道究竟会变得多慢，下面给出几

种方法来评估自己在训练时发挥了多少 gpu 性能，以及具体测试方法。

7.1 flops 比值法

测试工具：deepspeed

参考数据：nvidia 公布的显卡 fp16 峰值计算速度（tensor core）

gpu 利用率 = 实测的 flops/显卡理论上的峰值 flops

举例：deepspeed 实测 flops 100tflops，而用的是 A100 卡理论峰值 312tflops，可以得到 GPU

利用率只有 32.05%

7.2 throughout 估计法

测试工具：手动估算或者 deepspeed

参考数据：论文中的训练速度或者吞吐量

吞吐量 = example 数量/秒/GPU * max_length

gpu 利用率 = 实际吞吐量 / 论文中的吞吐量（假设利用率 100%）

举例：

实测训练时处理样本速度为 3 example/s，一共有 4 卡，max length 2048，则吞吐量为 1536

token/s/gpu

根据 llama 论文知道，他们训练 7B 模型的吞吐量约为 3300 token/s/gpu，那么 GPU 利用率

只有 46.54%

7.3 torch profiler 分析法

测试工具：torch profiler 及 tensorboard

参考数据：无

利用 torch profiler 记录各个函数的时间，将结果在 tensorboard 上展示，在 gpu kenel 视图下，

可以看到 tensor core 的利用率，比如 30%

总结：以上三种方法，在笔者的实验中能得到差不多的利用率指标。

从准确性上看，方案三 > 方案一 > 方案二

从易用性上看，方案二 > 方案一 > 方案三

如果不想改代码就用方案二估算自己的训练速度是不是合理的，如果想精确分析训练速度的

瓶颈还是建议使用方案三。

8. 测试你的显卡利用率实现细节篇

8.1 如何查看多机训练时的网速？

iftop 命令，看网速很方便。

8.2 如何查看服务器上的多卡之间的 NVLINK topo？

$ nvidia-smi topo -m

8.3 如何查看服务器上显卡的具体型号?

cd /usr/local/cuda/samples/1_Utilities/deviceQuery

make

./deviceQuery

8.4 如何查看训练时的 flops？（也就是每秒的计算量）

理论上，如果 flops 比较低，说明没有发挥出显卡的性能。

如果基于 deepspeed 训练，可以通过配置文件很方便的测试。

{

"flops_profiler": {

"enabled": true,

"profile_step": 1,

"module_depth": -1,

"top_modules": 1,

"detailed": true,

"output_file": null

}

参考：https://www.deepspeed.ai/tutorials/flops-profiler/

8.5 如何查看对 deepspeed 的环境配置是否正确？

$ ds_report

8.6 tf32 格式有多长？

19 位

8.7 哪里看各类显卡算力比较？

https://lambdalabs.com/gpu-benchmarks

8.8 （torch profiler）如何查看自己的训练中通信开销？

用 pytorch profiler 查看，下面给出基于 transformers 的一种快捷的修改方式。

https://github.com/yqhu/profiler-

workshop/blob/c8d4a7c30a61cc7b909d89f88f5fd36b70c55769/hf_training_trainer_prof.py

用记录的 pt.trace.json 文件放到 tensorboard 上，可以看出 tensor core 的利用率。

根据实践经验，使用 deepspeed zero3 时，pcie 版本的卡很大部分时间都在通信上，AllGather

和 ReduceScatter 的时间超过 tensor core 计算的时间，所以 flops 上不去。

大模型（LLMs）显存问题面

相关文章