Closed LemonQC closed 1 year ago
您这里是否将16个clip-level的特征作为和VQA上一样的object特征来对待呢,能否提供一下训练和测试代码。
是的,对于NExT-QA数据集,我们将16*2048维的motion特征作为视觉特征输入。关于NExT-QA的代码,我将尽快整理并公开
好的,谢谢您的回复
您这里是否将16个clip-level的特征作为和VQA上一样的object特征来对待呢,能否提供一下训练和测试代码。