Closed Xiaolong-han closed 4 years ago
对的
谢谢解答。但是我看r(2+1)d18比3dresnet101在CSL500的识别率高那么多,有点疑惑,您认为什么原因呢?是参数少更好训吗?
分解3d卷积更容易优化,同时增加了非线性度,有更强的表示能力。 具体可以参考一下A Closer Look at Spatiotemporal Convolutions for Action Recognition这篇论文。
确实,我只是觉得18层就效果这么好有点惊讶,哈哈。那个代码里用的pretrain_model_url那几个坚果云链接好像失效了,问一下预训练模型你用的哪里的,是那个3dresnet-pytorch(论文Can spacial temperal retrace.....)作者的吗?不是的话可否分享一下,谢谢啦
是原论文的预训练模型,我为了方便下载转存到坚果云了hhh 你可以试试把image_size从128换成224,这样差距会小很多 我一开始为了节省训练时间就只用了128,换成224后我试过在CSL500上resnet3d也可以达到90%以上准确率
OK,谢谢哈
哈哈哈不用客气
你好,可以分享一下预训练模型吗,坚果云的链接失效了
我看代码里有r(2+1) 18,但是这个识别率是18的吗?有点疑惑。