训练指标问题 - Githubissues

caiyuanhao1998 / Retinexformer

"Retinexformer: One-stage Retinex-based Transformer for Low-light Image Enhancement" (ICCV 2023) & (NTIRE 2024 Challenge)

https://arxiv.org/abs/2303.06705

MIT License

828 stars 64 forks source link

训练指标问题 #81

Closed ycwsilent closed 3 months ago

ycwsilent commented 3 months ago

很荣幸能够读到你们这么优秀的论文以及取得如此高的效果；我通过使用你们提供的训练权重能够达到相应的指标，但是我复现你们的指标在lol-v2-real数据集上，进行过十余次复现，均不能达到你们论文中的效果，最好与你们的差距在psnr上也有0.6的差距;；我也详细对比了你们的训练日志以及数据集(从你们提供的建议链接中下载),甚至还有硬件rtx-8000这种显卡去训练，均没有尝试成功,请问一下，还有什么可能的细节是我没有注意到的吗？

caiyuanhao1998 commented 3 months ago

你好，感谢关注，lol-v2-real 和 MIT-Adobe 5K 是在 RTX 3090 上 train 出来的。请按照 README 里面的提示配置环境（使用 conda Retinexformer环境）启动实验，按照我们的训练日志来对齐。

caiyuanhao1998 commented 3 months ago

如果觉得我们的 repo 有用的话，帮忙点点 star 支持一下

caiyuanhao1998 commented 3 months ago

感谢

ycwsilent commented 3 months ago

好的，感谢你的回答，我再多试几次呢

ycwsilent commented 3 months ago

retinexformer环境问题还想请教一个问题，您在readme里面提到两个环境1.1 Install the environment with Pytorch 1.11 以及 1.2 Install the environment with Pytorch 2 ；；我是应该只用去使用1.1而不管1.2吧

caiyuanhao1998 commented 3 months ago

对的，1.2是给 ntire 超高分辨率混合精度和多卡训练使用的。你感兴趣也可以尝试一下。

如果觉得我们的repo有用的话，麻烦帮忙点点star支持一下

ycwsilent commented 3 months ago

您好，已加星，经过几小时训练，目前已经迭代了4万轮；目前看起来最好是只有21.60(在2万多次迭代时候)，我去查看您所提供的训练日志，发现您最好的结果22.80也是在2万多次时候产生的；并且我搜索您的日志，指标超过22的只有这一个，我有去看相应的损失曲线(以前的迭代15万次，甚至25或者40万)，发现其总体趋势并没有达到平稳，这样正常吗，根据我这么多次的复现经验来看，即使迭代完和您相应的15万次，也不能与您的结果相近；总体来说，不知道我是否有哪些操作是否失误；在以往的数十次复现中，我最好有22.20左右。

caiyuanhao1998 commented 3 months ago

LOL数据集的训练随机性确实比较大，所以训练loss不会很平稳，建议再多训练几次，然后用3090。LOL-v2-real 和 FiveK 我是在 3090 上训练出来的，我也说不上为啥 3090 在这俩数据集上就是比 8000 要好。其他都是在 8000 上训出来的

caiyuanhao1998 commented 3 months ago

主要原因还是这个数据集的训练集的数据分布和测试集的数据分布差异较大

caiyuanhao1998 commented 3 months ago

感谢你的支持和关注

MoWangDaRen commented 2 weeks ago

您好，请问您是如何判断模型是否过拟合的，

MoWangDaRen commented 2 weeks ago

您好，请问您是如何判断模型是否过拟合的，