milleniums / High-Resolution-Remote-Sensing-Semantic-Segmentation-PyTorch

PyTorch实现高分遥感语义分割(地物分类)
430 stars 81 forks source link

RuntimeError: CUDA error #8

Open Jzli03 opened 2 years ago

Jzli03 commented 2 years ago

RuntimeError: CUDA error: device-side assert triggered CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect. For debugging consider passing CUDA_LAUNCH_BLOCKING=1. 代码中错误定位在trainer.training(epoch)和writer.add_scalar('train_loss', train_loss.avg, curr_iter)请问应该如何更改

houchenfeng commented 2 years ago

我也遇见了相同的问题,请问您解决了吗

houchenfeng commented 2 years ago

我解决了这个问题,换用CPU之后可以发现是越界,然后找到是vis2gray.py中将一些点设置为16导致越界了。改为0就可以。

houchenfeng commented 1 year ago

因为是之前为了完成大作业匆忙做的,细节记不太清了。刚刚看了一下,mask肯定是灰度的,data读入的时候就已经是单通道的数据了(mask = Image.open(mask_path).convert('L')),我应该是先用vis2gray把彩色标签转化为0-15的标签数据了,然后把处理好的标签作为训练集。

------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2022年10月10日(星期一) 上午10:07 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [milleniums/High-Resolution-Remote-Sensing-Semantic-Segmentation-PyTorch] RuntimeError: CUDA error (Issue #8)

我解决了这个问题,换用CPU之后可以发现是越界,然后找到是vis2gray.py中将一些点设置为16导致越界了。改为0就可以。

您好,我想问一下,是您重新用vis2gray将彩色mask处理成了灰度的mask?还是直接修改了vis2gray的方法。我看代码中没有调用vis2gray的方法啊。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

Wzysaber commented 1 year ago

mask[mask >= num_class] = ignore_label mask[mask <= 0] = ignore_label

dataset里面加这个就可以了

houchenfeng commented 1 year ago

谁能给一份完整的训练代码和文件阿,这个缺各种文件,config.json 权重等等

xd你缺啥了,我记得可以自己训练的啊,没缺文件吧,需要自己从头开始训练的。我的放到服务器上了,你看你缺啥文件我发你。

houchenfeng commented 1 year ago

谁能给一份完整的训练代码和文件阿,这个缺各种文件,config.json 权重等等

xd你缺啥了,我记得可以自己训练的啊,没缺文件吧,需要自己从头开始训练的。我的放到服务器上了,你看你缺啥文件我发你。

太感谢了兄弟 能加个q详聊吗,比如训练时候这个jpg他是如何生成的

训练里面没有生成jpg呀,loss是用tensorboardX 保存的,这几行: https://github.com/milleniums/High-Resolution-Remote-Sensing-Semantic-Segmentation-PyTorch/blob/a68c44bbf93a2e5bc270c920f18576c76e03e1dd/train.py#L239

推理的时候就是把预测结果保存下来的: https://github.com/milleniums/High-Resolution-Remote-Sensing-Semantic-Segmentation-PyTorch/blob/a68c44bbf93a2e5bc270c920f18576c76e03e1dd/train.py#L304

houchenfeng commented 1 year ago

@drucelee723 你新开一个issue说清楚就好了吧 你描述的问题我都没怎么看懂

MLS2021 commented 1 year ago

谁能给一份完整的训练代码和文件阿,这个缺各种文件,config.json 权重等等

xd你缺啥了,我记得可以自己训练的啊,没缺文件吧,需要自己从头开始训练的。我的放到服务器上了,你看你缺啥文件我发你。 请问一下,config.json这个文件是什么

hellobo2802 commented 1 year ago

谁能给一份完整的训练代码和文件阿,这个缺各种文件,config.json 权重等等

xd你缺啥了,我记得可以自己训练的啊,没缺文件吧,需要自己从头开始训练的。我的放到服务器上了,你看你缺啥文件我发你。

me too. 这个代码bug不断,好多地方续不上,兄弟share一下吧。