0aqz0 / SLR

isolated & continuous sign language recognition using CNN+LSTM/3D CNN/GCN/Encoder-Decoder
198 stars 41 forks source link

R(2+1)D的结果用的是具体多少层的呀 #3

Closed Xiaolong-han closed 4 years ago

Xiaolong-han commented 4 years ago

我看代码里有r(2+1) 18,但是这个识别率是18的吗?有点疑惑。

0aqz0 commented 4 years ago

对的

Xiaolong-han commented 4 years ago

谢谢解答。但是我看r(2+1)d18比3dresnet101在CSL500的识别率高那么多,有点疑惑,您认为什么原因呢?是参数少更好训吗?

0aqz0 commented 4 years ago

分解3d卷积更容易优化,同时增加了非线性度,有更强的表示能力。 具体可以参考一下A Closer Look at Spatiotemporal Convolutions for Action Recognition这篇论文。

Xiaolong-han commented 4 years ago

确实,我只是觉得18层就效果这么好有点惊讶,哈哈。那个代码里用的pretrain_model_url那几个坚果云链接好像失效了,问一下预训练模型你用的哪里的,是那个3dresnet-pytorch(论文Can spacial temperal retrace.....)作者的吗?不是的话可否分享一下,谢谢啦

0aqz0 commented 4 years ago

是原论文的预训练模型,我为了方便下载转存到坚果云了hhh 你可以试试把image_size从128换成224,这样差距会小很多 我一开始为了节省训练时间就只用了128,换成224后我试过在CSL500上resnet3d也可以达到90%以上准确率

Xiaolong-han commented 4 years ago

OK,谢谢哈

0aqz0 commented 4 years ago

哈哈哈不用客气

Peichenxin commented 5 months ago

你好,可以分享一下预训练模型吗,坚果云的链接失效了