R(2+1)D的结果用的是具体多少层的呀

0aqz0 / SLR

isolated & continuous sign language recognition using CNN+LSTM/3D CNN/GCN/Encoder-Decoder

198 stars 41 forks source link

R(2+1)D的结果用的是具体多少层的呀 #3

Closed Xiaolong-han closed 4 years ago

Xiaolong-han commented 4 years ago

我看代码里有r(2+1) 18,但是这个识别率是18的吗？有点疑惑。

0aqz0 commented 4 years ago

对的

Xiaolong-han commented 4 years ago

谢谢解答。但是我看r(2+1)d18比3dresnet101在CSL500的识别率高那么多，有点疑惑，您认为什么原因呢？是参数少更好训吗？

0aqz0 commented 4 years ago

分解3d卷积更容易优化，同时增加了非线性度，有更强的表示能力。具体可以参考一下A Closer Look at Spatiotemporal Convolutions for Action Recognition这篇论文。

Xiaolong-han commented 4 years ago

确实，我只是觉得18层就效果这么好有点惊讶，哈哈。那个代码里用的pretrain_model_url那几个坚果云链接好像失效了，问一下预训练模型你用的哪里的，是那个3dresnet-pytorch（论文Can spacial temperal retrace.....）作者的吗？不是的话可否分享一下，谢谢啦

0aqz0 commented 4 years ago

是原论文的预训练模型，我为了方便下载转存到坚果云了hhh 你可以试试把image_size从128换成224，这样差距会小很多我一开始为了节省训练时间就只用了128，换成224后我试过在CSL500上resnet3d也可以达到90%以上准确率

Xiaolong-han commented 4 years ago

OK，谢谢哈

0aqz0 commented 4 years ago

哈哈哈不用客气

Peichenxin commented 5 months ago

你好，可以分享一下预训练模型吗，坚果云的链接失效了