Closed Xiloy closed 2 months ago
你好,当我用phase1_seg.yaml在caisiab*上训练10000次迭代,并用获得的权重在单个2080ti上进行测试,总是会报分布式错误,错误信息如图,一开始以为是batchsize高了,但是调低仍然会报错,后面观察内存和显存使用情况,发现内存使用达到了将近64个G,仍然无法完整跑完测试,内存不够:),想请教一下有什么好的解决方式吗? 2024-01-19-09-33-00.txt
还有一个问题就是,在caisiaB*数据集中,其中有个ratio的数据是怎么获取的?
Stale issue message
System information (version)
Detailed description
Steps to reproduce
你好,当我用phase1_seg.yaml在caisiab*上训练10000次迭代,并用获得的权重在单个2080ti上进行测试,总是会报分布式错误,错误信息如图,一开始以为是batchsize高了,但是调低仍然会报错,后面观察内存和显存使用情况,发现内存使用达到了将近64个G,仍然无法完整跑完测试,内存不够:),想请教一下有什么好的解决方式吗? 2024-01-19-09-33-00.txt![screenshot_6](https://github.com/ShiqiYu/OpenGait/assets/67252481/f8e4fb05-49e3-4856-a9f7-a750937ea781)
Issue submission checklist