zhenhuat / STCFormer

(CVPR2023)3D Human Pose Estimation with Spatio-Temporal Criss-cross Attention
87 stars 5 forks source link

demo有延迟 #24

Open Duke-good opened 5 days ago

Duke-good commented 5 days ago

请问跑这个demo视频的时候为什么视频帧和预测不一样

zhenhuat commented 3 days ago

这个我不是很确定,可能跟视频帧率有关。因为训练集是Human3.6M,其视频帧数是50fps,文中我们的tds=2或者3,相当于将视频输入下采样到25fps或16fps;而大部分in-the-wild视频都是25fps。因此你可以尝试在inference的时候不再设置tds,即tsd=1,这样也许能保证训练和测试的一致性。