Closed pangsg closed 9 months ago
可以提供更多的信息吗? 包括您的机器配置, 运行程序的并行配置等. 最好可以提供一个最小复现.
可以提供更多的信息吗? 包括您的机器配置, 运行程序的并行配置等. 最好可以提供一个最小复现.
机器是A100 80G, torch=2.1.2,cuda=12.1,操作系统是Ubuntu 18.04,并行配置需要在哪看呢?
可以提供更多的信息吗? 包括您的机器配置, 运行程序的并行配置等. 最好可以提供一个最小复现.
我们是在推理的时候报错的
机器是A100 80G, torch=2.1.2,cuda=12.1,操作系统是Ubuntu 18.04,并行配置需要在哪看呢?
只有一张卡吗? 有可能是某个 tensor 没在 gpu 上, 或者是在另一张 gpu 上.
好的谢谢,我排查下
---原始邮件--- 发件人: "La Eako @.> 发送时间: 2024年2月6日(周二) 下午3:25 收件人: @.>; 抄送: @.**@.>; 主题: Re: [laekov/fastmoe] 跑FMOE的时候提示cudaErrorInvalidDevice (Issue #194)
机器是A100 80G, torch=2.1.2,cuda=12.1,操作系统是Ubuntu 18.04,并行配置需要在哪看呢?
只有一张卡吗? 有可能是某个 tensor 没在 gpu 上, 或者是在另一张 gpu 上.
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>
Done
CUDA error at /home/workspace/fastmoe-master/cuda/stream_manager.cpp:52 code=101(cudaErrorInvalidDevice) "cudaSetDevice(device)"
环境: torch=2.1.2 cuda=12.1