ttengwang / PDVC

End-to-End Dense Video Captioning with Parallel Decoding (ICCV 2021)
MIT License
200 stars 23 forks source link

使用GT proposal时测得的paragraph captioning结果偏低 #12

Closed PKULiuHui closed 2 years ago

PKULiuHui commented 2 years ago

作者您好~我使用的是TSP的特征以及预训练好的模型,测试predicted proposal时得到与readme中相近结果(bleu4:10.46, METEOR: 16.43, CIDEr: 20.92),这个结果比论文Table 4中的结果要好,可能是因为用了更好的特征。

但当我使用同样的特征和模型测试GT proposal时,得到(bleu4:11.17, METEOR15.58, CIDEr: 22.70),这个结果又明显不如论文Table 4中的结果,这是为什么呢?是测试GT proposal用的模型和测试predicted proposal的模型不一样吗?

如果方便的话,能不能给我发一份模型在predicted proposal和GT proposal两种条件下的预测结果呀,我们打算搜集一些模型的结果进行一个人工评测,我的邮箱是xinkeliuhui@pku.edu.cn,感谢!

ttengwang commented 2 years ago

hi 谢谢关注。确实,基于GT proposal与基于predicted proposals的模型有微小的不同,不可以直接使用相同的预训练模型参数。

该代码是支持训练TSP+PDVC+GT proposals训练的,但是我之前并没有跑过这个setting。你可以自己测试下,相信性能会有显著改善。如果不着急,我后面有时间也会测试下然后发给你,可能在一个月内。

PKULiuHui commented 2 years ago

感谢回复!请问如果是基于GT proposals训练的话命令是什么呢?我看README里面“PDVC with learnt proposals”和"PDVC with ground-truth proposals"训练命令是一样的

ttengwang commented 2 years ago

确实是一样的,抱歉这里写错了,现已修正。同时添加了您需要的cfg文件,请运行:

# Training
config_path=cfgs/anet_tsp_pdvc_gt.yml
python train.py --cfg_path ${config_path} --criteria_for_best_ckpt pc --gpu_id ${GPU_ID}

# Evaluation
eval_folder=anet_tsp_pdvc_gt
python eval.py --eval_folder ${eval_folder} --eval_transformer_input_type gt_proposals --gpu_id ${GPU_ID}
PKULiuHui commented 2 years ago

我训练了一下TSP+GT proposals的模型,在整个验证集上结果为(bleu4: 12.57,METEOR: 16.62,CIDEr: 30.32),确实比论文中使用V+F的特征要更好