Windsrain / Selective-Stereo

[CVPR 2024 Highlight] Selective-Stereo: Adaptive Frequency Information Selection for Stereo Matching
MIT License
89 stars 8 forks source link

模型训练、微调的疑问 #14

Closed hihxy closed 2 months ago

hihxy commented 2 months ago

作者您好,首先感谢您和您团队杰出的贡献!

我在论文中看到您在Middlebury数据集排行榜上提交的模型是由SceneFlow预训练,然后经过多个数据集(InStereo2k、SintelStereo、FallingThings、TartanAir……)微调得到的。在阅读您的论文和代码后,有几个疑问想请教一下。

您在Google Drive中提供的2个关于middlebury的预训练模型:middlebury_train.pth是只使用Middlebury微调,middlebury_finetune.pth是上述多个数据集微调,我的疑问是 1. 这两个预训练模型在准确性的这个指标上相差大吗?2. 我看上述的一些数据集(InStereo2k、SintelStereo、FallingThings、TartanAir……)加起来数量已经很多了,有很多是真实场景拍摄的,考虑应用在真实场景的话,如果直接挑出真实场景的数据集来训练,您觉得效果会好吗?

希望得到您的解答,感谢!

Windsrain commented 2 months ago

你应该理解错了,middlebury_train和middlebury_finetune都用了多个数据集,具体可看论文和stereo_datasets.py。

  1. 因为middlebury只允许提交一次,所以指标我不知道相差多大;
  2. train用了广泛的数据集做预训练是为了提高模型的泛化性,finetune你可以看源码,我只挑了几个和middlebury场景很接近的数据集,而且middlebury训练集的比例相比train阶段提升很多。直接挑真实场景的数据及训练效果肯定也会好。
hihxy commented 2 months ago

@Windsrain 好的,感谢