laekov / fastmoe

A fast MoE impl for PyTorch
https://fastmoe.ai
Apache License 2.0
1.57k stars 189 forks source link

跑FMOE的时候提示cudaErrorInvalidDevice #194

Closed pangsg closed 9 months ago

pangsg commented 9 months ago

CUDA error at /home/workspace/fastmoe-master/cuda/stream_manager.cpp:52 code=101(cudaErrorInvalidDevice) "cudaSetDevice(device)"

环境: torch=2.1.2 cuda=12.1

laekov commented 9 months ago

可以提供更多的信息吗? 包括您的机器配置, 运行程序的并行配置等. 最好可以提供一个最小复现.

pangsg commented 9 months ago

可以提供更多的信息吗? 包括您的机器配置, 运行程序的并行配置等. 最好可以提供一个最小复现.

机器是A100 80G, torch=2.1.2,cuda=12.1,操作系统是Ubuntu 18.04,并行配置需要在哪看呢?

pangsg commented 9 months ago

可以提供更多的信息吗? 包括您的机器配置, 运行程序的并行配置等. 最好可以提供一个最小复现.

我们是在推理的时候报错的

laekov commented 9 months ago

机器是A100 80G, torch=2.1.2,cuda=12.1,操作系统是Ubuntu 18.04,并行配置需要在哪看呢?

只有一张卡吗? 有可能是某个 tensor 没在 gpu 上, 或者是在另一张 gpu 上.

pangsg commented 9 months ago

好的谢谢,我排查下

---原始邮件--- 发件人: "La Eako @.> 发送时间: 2024年2月6日(周二) 下午3:25 收件人: @.>; 抄送: @.**@.>; 主题: Re: [laekov/fastmoe] 跑FMOE的时候提示cudaErrorInvalidDevice (Issue #194)

机器是A100 80G, torch=2.1.2,cuda=12.1,操作系统是Ubuntu 18.04,并行配置需要在哪看呢?

只有一张卡吗? 有可能是某个 tensor 没在 gpu 上, 或者是在另一张 gpu 上.

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

pangsg commented 9 months ago

Done