mindspore-lab / mindocr

A toolbox of ocr models and algorithms based on MindSpore
https://mindspore-lab.github.io/mindocr/
Apache License 2.0
194 stars 49 forks source link

使用svtr_tiny.yaml对ST_sep数据集做训练,只能训前八轮,第九轮acc会突变零。 #717

Closed lyhns closed 1 month ago

lyhns commented 1 month ago

精度之前O2,loss会变nan,调整O0后正常。但发现新问题,训练只要到第九轮,acc会突变0,损失依旧正常下降。我将之前第八轮训练的权重作为预训练权重重新训练,依旧会在第八轮acc变零。(尝试多次,稳定复现) 2024-07-15 08-39-07 的屏幕截图

2024-07-15 08-40-33 的屏幕截图

Mark-ZhouWX commented 1 month ago

请提供下环境信息,便于进一步分析: Ascend硬件型号, Mindspore版本号,CANN版本号, python版本,操作系统

lyhns commented 1 month ago

请提供下环境信息,便于进一步分析: Ascend硬件型号, Mindspore版本号,CANN版本号, python版本,操作系统

3080Ti;ubuntu18.05; cuda11.1;mindspore2.2.14; python 3.8 batchsize为256时能训8轮,然后loss正常下降acc突变0。batchsize为512时能训16轮。然后loss变nan,acc突变0。

Mark-ZhouWX commented 1 month ago

建议尝试: 1、将config中的drop_over_flow设置为true(针对loss为nan问题) 2、尝试把config中ema设为false (针对精度突变为0问题) 2、如果是8卡训练,确保使用了配置文件 svtr_tiny_8p.yaml

请同步提供下更多信息 1、训练的命令 2、config文件 3、是否改动了默认config,改动了什么 4、单卡训练还是多卡训练? 4、数据集地址

lyhns commented 1 month ago

建议尝试: 1、将config中的drop_over_flow设置为true(针对loss为nan问题) 2、尝试把config中ema设为false (针对精度突变为0问题) 2、如果是8卡训练,确保使用了配置文件 svtr_tiny_8p.yaml

请同步提供下更多信息 1、训练的命令 2、config文件 3、是否改动了默认config,改动了什么 4、单卡训练还是多卡训练? 4、数据集地址 经实验有效,虽然精度上升特别缓慢,但acc不再突变0,谢谢

Mark-ZhouWX commented 1 month ago

很高兴帮到你