使用svtr_tiny.yaml对ST_sep数据集做训练，只能训前八轮，第九轮acc会突变零。

mindspore-lab / mindocr

A toolbox of ocr models and algorithms based on MindSpore

https://mindspore-lab.github.io/mindocr/

Apache License 2.0

194 stars 49 forks source link

使用svtr_tiny.yaml对ST_sep数据集做训练，只能训前八轮，第九轮acc会突变零。 #717

Closed lyhns closed 1 month ago

lyhns commented 1 month ago

精度之前O2，loss会变nan，调整O0后正常。但发现新问题，训练只要到第九轮，acc会突变0，损失依旧正常下降。我将之前第八轮训练的权重作为预训练权重重新训练，依旧会在第八轮acc变零。（尝试多次，稳定复现） 2024-07-15 08-39-07 的屏幕截图

2024-07-15 08-40-33 的屏幕截图

Mark-ZhouWX commented 1 month ago

请提供下环境信息，便于进一步分析： Ascend硬件型号， Mindspore版本号，CANN版本号， python版本，操作系统

lyhns commented 1 month ago

请提供下环境信息，便于进一步分析： Ascend硬件型号， Mindspore版本号，CANN版本号， python版本，操作系统

3080Ti；ubuntu18.05; cuda11.1;mindspore2.2.14； python 3.8 batchsize为256时能训8轮，然后loss正常下降acc突变0。batchsize为512时能训16轮。然后loss变nan，acc突变0。

Mark-ZhouWX commented 1 month ago

建议尝试： 1、将config中的drop_over_flow设置为true（针对loss为nan问题） 2、尝试把config中ema设为false (针对精度突变为0问题) 2、如果是8卡训练，确保使用了配置文件 svtr_tiny_8p.yaml

请同步提供下更多信息 1、训练的命令 2、config文件 3、是否改动了默认config，改动了什么 4、单卡训练还是多卡训练？ 4、数据集地址

lyhns commented 1 month ago

建议尝试： 1、将config中的drop_over_flow设置为true（针对loss为nan问题） 2、尝试把config中ema设为false (针对精度突变为0问题) 2、如果是8卡训练，确保使用了配置文件 svtr_tiny_8p.yaml

请同步提供下更多信息 1、训练的命令 2、config文件 3、是否改动了默认config，改动了什么 4、单卡训练还是多卡训练？ 4、数据集地址经实验有效，虽然精度上升特别缓慢，但acc不再突变0，谢谢

Mark-ZhouWX commented 1 month ago

很高兴帮到你