ttengwang / PDVC

End-to-End Dense Video Captioning with Parallel Decoding (ICCV 2021)
MIT License
200 stars 23 forks source link

关于在自己的视频上运行PDVC #21

Closed izyq closed 2 years ago

izyq commented 2 years ago

您好,我是一名大二学生,对您这个项目十分感兴趣,感谢您对该项目的付出和无私奉献。想请教您一些问题,希望您不吝赐教,感激不尽 我尝试在自己的视频上运行PDVC,按照Readme中的操作步骤成功了,但仔细阅读test_and_visualize.sh文件后发现这个方法仅限于TSP这个模型。 而我一直训练的是C3D模型 所以引出问题一: 同时我也注意到关键操作是 START Dense-Captioning 用python 运行 eval.py,利用之前步骤生成的特征文件再生成 dvc_caption.josn,那我如何用自己训练过的C3D模型来生成.npy,再用eval.py生成Caption呢?

我也尝试过训练TSP模型,下载download_tsp_features.sh对应的文件,注意里面提到download the following files and reformat them into data/features/tsp/VIDEO_ID.npy where VIDEO_ID starts with 'v_',不知如何将这些TSP的h5文件format为.npy文件,只有convert_c3d_h5_to_npy.py却不能为TSP所用。

问题二: 如何将TSP的特征文件直接转化为npy文件?我注意到训练时获取的就是.npy文件 关于问题二的猜想: 所以我是需要按照TSP的Readme所描述的 将[Activity Net]数据集全部下载下来并用fiftyone分类,再用extract_features_from_a_released_checkpoint.sh 得到TSP的特征文件再进行训练嘛,那这样的话.h5文件是否得到利用呢。

以上问题可能比较基础和啰嗦,如果您乐意为我解答真的能帮到我很多!! 再次感谢~

ttengwang commented 2 years ago

Hi, thanks for your interest in this project.

  1. Sorry for that test_and_visualize.sh only support TSP features now.
  2. I just uploaded a script to convert tsp h5 files. Hope it helps.
izyq commented 2 years ago

Thank you so much for your reply, I didn't expect it to be so timely, haha, thanks again for your help