关于towards Good Practices for Very Deep Two-Stream ConvNets中temporal Nets的训练

yjxiong / caffe

A fork of Caffe with OpenMPI-based Multi-GPU (mainly data parallel) support for action recognition and more. More documentation please see the original readme.

http://caffe.berkeleyvision.org/

Other

551 stars 153 forks source link

关于towards Good Practices for Very Deep Two-Stream ConvNets中temporal Nets的训练 #185

Closed KaiJin1995 closed 7 years ago

KaiJin1995 commented 7 years ago

使用/models/action_recognition/vgg_16_flow_train_val_fast.prototxt进行训练，solver文件使用models/action_recognition/vgg_16_flow_solver.prototxt，使用4块gtx1080ti,光流图来自于您github提供的光流图转换代码。其中训练代码中的测试文件来自于：examples/action_recognition/dataset_file_examples/val_flow_split1.txt。最终在迭代3万次得到的准确率仅仅只有71%左右，与论文中的85.7%相差甚远。

Spatial Nets中训练的最终结果有77%左右，与论文中的结果相差并不大。

因此，深感疑惑，不知我对您代码的使用是否正确？请解答，谢谢！

KaiJin1995 commented 7 years ago

并且发现temporal net训练集在迭代到2万次时，训练集的Loss已经到0.1左右，而验证集的loss却一直大于1，训练有过拟合的趋势，而且我采用的是您提供的vgg_16_action_flow_pretrain.caffemodel。请指教到底可能哪里出了问题，谢谢

KaiJin1995 commented 7 years ago

经过您提供的测试方法测试split1，temporal net的准确率为82.8%，与您论文中的85.7%有三个百分点的差距，请指教是什么原因导致？

yjxiong commented 7 years ago

正确的测试流程一定可以得到报告的结果结果，请检查你的各项设置。

KaiJin1995 commented 7 years ago

非常感谢您的答复，最近又进行了检查，提升了准确率，在split1进行测试，temporal net已经达到了86%,spatial net达到了80.4%，对其进行结合，发现准确率可以到达90%，与您的只差了0.9%,已经尽力去模仿了，并尽可能考虑并排查了所有的可能的错误。相差0.9%可能大概是微小的误差，非常感谢您的开源代码。