yjxiong / caffe

A fork of Caffe with OpenMPI-based Multi-GPU (mainly data parallel) support for action recognition and more. More documentation please see the original readme.
http://caffe.berkeleyvision.org/
Other
551 stars 153 forks source link

关于towards Good Practices for Very Deep Two-Stream ConvNets中temporal Nets的训练 #185

Closed KaiJin1995 closed 7 years ago

KaiJin1995 commented 7 years ago

使用/models/action_recognition/vgg_16_flow_train_val_fast.prototxt进行训练,solver文件使用models/action_recognition/vgg_16_flow_solver.prototxt,使用4块gtx1080ti,光流图来自于您github提供的光流图转换代码。其中训练代码中的测试文件来自于:examples/action_recognition/dataset_file_examples/val_flow_split1.txt。最终在迭代3万次得到的准确率仅仅只有71%左右,与论文中的85.7%相差甚远。

Spatial Nets中训练的最终结果有77%左右,与论文中的结果相差并不大。

因此,深感疑惑,不知我对您代码的使用是否正确?请解答,谢谢!

KaiJin1995 commented 7 years ago

并且发现temporal net训练集在迭代到2万次时,训练集的Loss已经到0.1左右,而验证集的loss却一直大于1,训练有过拟合的趋势,而且我采用的是您提供的vgg_16_action_flow_pretrain.caffemodel。请指教到底可能哪里出了问题,谢谢

KaiJin1995 commented 7 years ago

经过您提供的测试方法测试split1,temporal net的准确率为82.8%,与您论文中的85.7%有三个百分点的差距,请指教是什么原因导致?

yjxiong commented 7 years ago

正确的测试流程一定可以得到报告的结果结果,请检查你的各项设置。

KaiJin1995 commented 7 years ago

非常感谢您的答复,最近又进行了检查,提升了准确率,在split1进行测试,temporal net已经达到了86%,spatial net达到了80.4%,对其进行结合,发现准确率可以到达90%,与您的只差了0.9%,已经尽力去模仿了,并尽可能考虑并排查了所有的可能的错误。相差0.9%可能大概是微小的误差,非常感谢您的开源代码。