Closed yutong12 closed 3 months ago
Hi,我尝试复现您的工作,但在这个过程中遇到了点问题 我在一台2080ti的云服务器上进行训练,按照您给的示例运行,发现设置cuda后,worker有输出(这代表已经开始了优化器工作过程);但我们监控GPU利用率时,发现GPU使用率为零,设备没有占用GPU空间,查看发现主要任务似乎都已多线程方式在多个CPU上运行,这是否意味着您这边在训练过程中将权重没有放到CUDA上进行计算?不然我无法理解为何会出现这个结果 希望得到您的回复 谢谢!
更进一步的,在urban_planning_agent.py这个文件中,第16行默认是使用CPU?不知道train里设置好的cuda:0在何处发挥作用 烦请一并告知 感谢!
更新 我们使用colab服务器进行复训,发现在其提供的T4环境下差不多五分钟一轮,然而在对应的CPU环境下能做到一分钟一轮,不知是否为正常现象
更新 腾讯云服务器上可以成功复现 速度也正常
Hi,我尝试复现您的工作,但在这个过程中遇到了点问题 我在一台2080ti的云服务器上进行训练,按照您给的示例运行,发现设置cuda后,worker有输出(这代表已经开始了优化器工作过程);但我们监控GPU利用率时,发现GPU使用率为零,设备没有占用GPU空间,查看发现主要任务似乎都已多线程方式在多个CPU上运行,这是否意味着您这边在训练过程中将权重没有放到CUDA上进行计算?不然我无法理解为何会出现这个结果 希望得到您的回复 谢谢!