其它数据集上复现

Layman0527 commented 6 months ago

前辈您好，最近在复现您的代码。想请问您Sydney的feature是怎么生成的，我想在RSICD和UCM进行复现。

One-paper-luck commented 6 months ago

resnet特征(scene feature)：新上传了./feature/pre_scene_features.py, ./misc/resnet.py, 和./misc/resnet_utils.py。直接调用pre_scene_features.py即可。

2.目标特征：为了方便，你可以使用torch提供的预训练faster R-CNN模型提取ROI特征。

Layman0527 commented 6 months ago

感谢前辈的回复，给予了我很大的帮助。

Layman0527 commented 5 months ago

前辈您好，很抱歉又来打扰您。您方便提供一下你提取ROI特征的代码吗，最近在复现，但是我提取的尺寸一直没对上你的数据，导致运行报错。

One-paper-luck commented 5 months ago

没有特别的代码，每个ROI特征经过池化操作处理即可。比如给定一个ROI特征size是14x14x1024，只需要使用一个1x1池化操作就可以将目标表示为1x1024。

Layman0527 commented 5 months ago

没有特别的代码，每个ROI特征经过池化操作处理即可。比如给定一个ROI特征size是14x14x1024，只需要使用一个1x1池化操作就可以将目标表示为1x1024。感谢前辈，成功复现。

WuYZ0 commented 3 months ago

没有特别的代码，每个ROI特征经过池化操作处理即可。比如给定一个ROI特征size是14x14x1024，只需要使用一个1x1池化操作就可以将目标表示为1x1024。

前辈您好，这里每张图像您的ROI特征的size经过池化后是（50，1024）的，也就是说每张图像有50个ROI，每个ROI的向量是1024×1的，那么这50个ROI特征是如何选取的，因为我生成的size是（1000，1024）的，如何处理。感谢

WuYZ0 commented 3 months ago

前辈您好，很抱歉又来询问您一些问题，请问训练后生成的caption在哪里，我没有找到相关的内容或者py文件。祝工作顺利

One-paper-luck commented 3 months ago

@liujhui 1）对于ROI的数量，取top 50 或者设置生成50个目标。 2）训练过程没必要保存生成的caption，推理test.py生成caption的语句是 line 39 gen = evaluation.PTBTokenizer.tokenize(gen)

WuYZ0 commented 3 months ago

@liujhui 1）对于ROI的数量，取top 50 或者设置生成50个目标。 2）训练过程没必要保存生成的caption，推理test.py生成caption的语句是 line 39 gen = evaluation.PTBTokenizer.tokenize(gen)

感谢回复答疑，祝生活愉快！

Dingxiangtao commented 2 months ago

resnet特征(scene feature)：新上传了./feature/pre_scene_features.py, ./misc/resnet.py, 和./misc/resnet_utils.py。直接调用pre_scene_features.py即可。

2.目标特征：为了方便，你可以使用torch提供的预训练faster R-CNN模型提取ROI特征。

前辈您好，我想问一下为什么我执行完pre_scene_features.py后直接生成了object_feature和scene_feature,按您说的还需要使用torch提供的预训练faster R-CNN模型提取ROI特征才行啊，但我在pre_scene_features.py中并没有看到faster R-CNN相关的内容呀，但代码还能正常训练，结果与论文中的差不多。是我对整篇论文理解的不到位吗？还是基础知识不行没有理解？

One-paper-luck commented 2 months ago

@Dingxiangtao pre_scene_features 只产生了scene_feature，存储最后两个卷积层特征，实际只用了最后一个卷积层。你需要自己写个脚本用torch提供的预训练faster R-CNN模型提取ROI特征

Dingxiangtao commented 2 months ago

不好意思前辈，是我自己搞错了，我用的是您提供的提取好的Sydney_Captions的特征。所以可以正常训练

Dingxiangtao commented 1 month ago

没有特别的代码，每个ROI特征经过池化操作处理即可。比如给定一个ROI特征size是14x14x1024，只需要使用一个1x1池化操作就可以将目标表示为1x1024。

前辈您好，这里每张图像您的ROI特征的size经过池化后是（50，1024）的，也就是说每张图像有50个ROI，每个ROI的向量是1024×1的，那么这50个ROI特征是如何选取的，因为我生成的size是（1000，1024）的，如何处理。感谢

前辈，我想问一下为什么我生产的size是（50，256）啊？我看网上说直接填充，然后维度是对上了，但我拿来做测试，生成的字幕效果很差

Dingxiangtao commented 1 month ago

@Dingxiangtao pre_scene_features 只产生了scene_feature，存储最后两个卷积层特征，实际只用了最后一个卷积层。你需要自己写个脚本用torch提供的预训练faster R-CNN模型提取ROI特征前辈你好，论文结构图中有对提取的特征分别进行reshape和AAP操作，但我在代码中并没有找到，是在提取特征时就已经处理了吗？

One-paper-luck commented 1 month ago

@Dingxiangtao 是的，提取特征顺便用了

One-paper-luck / PKG-Transformer

其它数据集上复现 #2