luo3300612 / image-captioning-DLCT

Official pytorch implementation of paper "Dual-Level Collaborative Transformer for Image Captioning" (AAAI 2021).
BSD 3-Clause "New" or "Revised" License
194 stars 31 forks source link

区域特征提取 #24

Closed HN123-123 closed 2 years ago

HN123-123 commented 2 years ago

我尝试使用您的代码自己常见特征集,但是还有部分疑问。region_after和region_before 分别取自proposal_box_features和proposal_box_features1(均值),这有何区别?? 另外我去https://github.com/facebookresearch/grid-feats-vqa下也并未找到相应区域yaml文件,请问您是否可以分享下您的X-101-region.yaml和X-152-region.yaml文件??

HN123-123 commented 2 years ago

另外,我发现您提供的区域特征生成文件直接将特征保存为.hdf5文件形式,我如果想保存源形式的话应该怎么做呢??

luo3300612 commented 2 years ago

你好,这两者的区别是,before是roi pooling之后的特征,after是before再经过检测头的特征,我们用的模型是faster rcnn dc5,如果没有记错的话,after就是before经过fc之后的特征,在我们的实验中after的结果没有before好,所以我们用的就是before的特征

主要的数据都在这三行,你把data=后面的tensor拿出来单独保存就行了

如果你想保存成npy的话,就把feature box size在一起保存成npz 如果你想保存成pth的话,可以弄一个字典用torch.save保存成pth