yuanzhoulvpi2017 / zero_nlp

中文nlp解决方案(大模型、数据、模型、训练、推理)
MIT License
2.85k stars 355 forks source link

我用了两张GPU,训练起来只占用了第二张GPU的内存,没有使用算力,这个是为什么 #106

Closed zx19941234 closed 1 year ago

zx19941234 commented 1 year ago

@yuanzhoulvpi2017

+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 530.30.02              Driver Version: 530.30.02    CUDA Version: 12.1     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                  Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf            Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  Tesla P40                       Off| 00000000:03:00.0 Off |                    0 |
| N/A   60C    P0              180W / 250W|  15230MiB / 23040MiB |     96%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
|   1  Tesla P40                       Off| 00000000:82:00.0 Off |                    0 |
| N/A   25C    P8                9W / 250W|      0MiB / 23040MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+

+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|    0   N/A  N/A     80504      G   /usr/lib/xorg/Xorg                          173MiB |
|    0   N/A  N/A    332026      C   ...onda3/envs/conda_chatglm/bin/python    15054MiB |
+---------------------------------------------------------------------------------------+
zx19941234 commented 1 year ago

@yuanzhoulvpi2017 请问怎么才能指定两张卡 平均内存,平均记录

yuanzhoulvpi2017 commented 1 year ago

@yuanzhoulvpi2017 请问怎么才能指定两张卡 平均内存,平均记录

你这压根就没分配到多卡吧😂😂

zx19941234 commented 1 year ago

@yuanzhoulvpi2017 我试了一下 先用一个其他模型占用了一部分内存 第一张卡显存满了之后 会自动分配到第二张 但是计算没有分配 第一张就100%跑着。。。

yuanzhoulvpi2017 commented 1 year ago

还有一个可能,你看的只是一瞬间的,并不是持续的。建议nvidia-smi -l 2隔2秒刷新一下,你就可以看到了,第二张卡也参与计算了。