泡泡老师，训练的时候出现一些疑问

bubbliiiing / yolov7-pytorch

这是一个yolov7的库，可以用于训练自己的数据集。

GNU General Public License v3.0

861 stars 150 forks source link

泡泡老师，训练的时候出现一些疑问 #37

Open rovebot opened 1 year ago

rovebot commented 1 year ago

用公开数据集也测试了泡泡老师的复现仓库和官方的仓库，训练最终收敛效果差不多，但复现的版本训练收敛速度比较慢
用自己的数据集在tiny版本上测试，一直没有收敛到官方仓库的效果（官方大概map40，复现仓库map10多）

sgd和adam都测试过了，训练了200多个epoch，看收敛曲线都已经收敛了，其他参数也是默认的，数据增强也和官方保持了一致，看了v7-tiny的loss计算都是和官方一致的，请问还有哪些点可以排查的。（同一个数据集用您复现的其他算法仓库跑都是没问题的，应该可以排除数据的问题）加不加载权重都测试过了，还是收敛的不好

rovebot commented 1 year ago

anchor 首先用了初始的测试过，然后用k-mean聚类之后的推荐anchor也测试过，结果都差不多

bubbliiiing commented 1 year ago

我提供的tiny库效果不好？

bubbliiiing commented 1 year ago

关闭mosaic试试

rovebot commented 1 year ago

我提供的tiny库效果不好？

嗯嗯，不知道为啥收敛的慢，而且没收敛的好。官方的大概70个epochs就收敛到最低的附近了，然后后面出现了一点过拟合。泡泡老师这个测试了200 / 300 个epochs都只收敛到官方的一半的样子，而且没发继续降低val loss了。adam 和 sgd 都试了

我用官方的 v5s 也测试了，和v7收敛情况差不多，但您这个出现不完全收敛的情况还在排查原因

关闭mosaic试试

我看官方的开了0.5的 mosaic 和 0.15 的 MixUp，我就没测试关掉mosaic了，但测试过关掉mixup也没啥提升。我现在去试试观掉mosaic。谢谢

bubbliiiing commented 1 year ago

嗯嗯，官方貌似是416？

bubbliiiing commented 1 year ago

的图

rovebot commented 1 year ago

嗯嗯，官方貌似是416？

论文里貌似对比了640 。做测试的时候输入尺寸我都设置的是640

bubbliiiing commented 1 year ago

貌似官方设置里面的anchor是对应416的

rovebot commented 1 year ago

貌似官方设置里面的anchor是对应416的

好吧，我测试过复制官方的anchor，情况也差不多，然后用你仓库里的代码里的kmean聚类的结果设置anchor结果只提升了2个点。我再排查排查

bubbliiiing commented 1 year ago

成功了吗？

rovebot commented 1 year ago

成功了吗？

没成功，我现在在训mini coco数据集，用这个测试一下

rovebot commented 1 year ago

成功了吗？

用coco数据集测试完了，都是用adam优化方法，您这边的学习率设置为0.001～0.00001，官方的我设置错了为0.001～0.0001，200epoch结束后，官方的map@0.5少2个点，应该是学习率设置的问题。不过能得出结论：之前用自己的数据集不完全收敛的情况不是代码问题

rovebot commented 1 year ago

成功了吗？

用coco数据集测试完了，都是用adam优化方法，您这边的学习率设置为0.001～0.00001，官方的我设置错了为0.001～0.0001，200epoch结束后，官方的map@0.5少2个点，应该是学习率设置的问题。不过能得出结论：之前用自己的数据集不完全收敛的情况不是代码问题

我是用的mini COCO train数据集，大概是完整的1/5，所以没发参考官方给出的精度，只能训两个做对比，但想要的结论已经有了

bubbliiiing commented 1 year ago

这种我可能得有具体数据集才能给出建议了，也许可以试试kmean？

bubbliiiing commented 1 year ago

anchor