One-paper-luck / PKG-Transformer

MIT License
8 stars 0 forks source link

其它数据集上复现 #2

Open Layman0527 opened 6 months ago

Layman0527 commented 6 months ago

前辈您好,最近在复现您的代码。想请问您Sydney的feature是怎么生成的,我想在RSICD和UCM进行复现。

One-paper-luck commented 6 months ago
  1. resnet特征(scene feature):新上传了./feature/pre_scene_features.py, ./misc/resnet.py, 和./misc/resnet_utils.py。直接调用pre_scene_features.py即可。

2.目标特征:为了方便,你可以使用torch提供的预训练faster R-CNN模型提取ROI特征。

Layman0527 commented 6 months ago

感谢前辈的回复,给予了我很大的帮助。

Layman0527 commented 5 months ago

前辈您好,很抱歉又来打扰您。您方便提供一下你提取ROI特征的代码吗,最近在复现,但是我提取的尺寸一直没对上你的数据,导致运行报错。

One-paper-luck commented 5 months ago

没有特别的代码,每个ROI特征经过池化操作处理即可。比如给定一个ROI特征size是14x14x1024,只需要使用一个1x1池化操作就可以将目标表示为1x1024。

Layman0527 commented 5 months ago

没有特别的代码,每个ROI特征经过池化操作处理即可。比如给定一个ROI特征size是14x14x1024,只需要使用一个1x1池化操作就可以将目标表示为1x1024。 感谢前辈,成功复现。

WuYZ0 commented 3 months ago

没有特别的代码,每个ROI特征经过池化操作处理即可。比如给定一个ROI特征size是14x14x1024,只需要使用一个1x1池化操作就可以将目标表示为1x1024。

前辈您好,这里每张图像您的ROI特征的size经过池化后是(50,1024)的,也就是说每张图像有50个ROI,每个ROI的向量是1024×1的,那么这50个ROI特征是如何选取的,因为我生成的size是(1000,1024)的,如何处理。感谢

WuYZ0 commented 3 months ago

前辈您好,很抱歉又来询问您一些问题,请问训练后生成的caption在哪里,我没有找到相关的内容或者py文件。 祝工作顺利

One-paper-luck commented 3 months ago

@liujhui 1)对于ROI的数量,取top 50 或者设置生成50个目标。 2)训练过程没必要保存生成的caption,推理test.py生成caption的语句是 line 39 gen = evaluation.PTBTokenizer.tokenize(gen)

WuYZ0 commented 3 months ago

@liujhui 1)对于ROI的数量,取top 50 或者设置生成50个目标。 2)训练过程没必要保存生成的caption,推理test.py生成caption的语句是 line 39 gen = evaluation.PTBTokenizer.tokenize(gen)

感谢回复答疑,祝生活愉快!

Dingxiangtao commented 2 months ago
  1. resnet特征(scene feature):新上传了./feature/pre_scene_features.py, ./misc/resnet.py, 和./misc/resnet_utils.py。直接调用pre_scene_features.py即可。

2.目标特征:为了方便,你可以使用torch提供的预训练faster R-CNN模型提取ROI特征。

前辈您好,我想问一下为什么我执行完pre_scene_features.py后直接生成了object_feature和scene_feature,按您说的还需要使用torch提供的预训练faster R-CNN模型提取ROI特征才行啊,但我在pre_scene_features.py中并没有看到faster R-CNN相关的内容呀,但代码还能正常训练,结果与论文中的差不多。是我对整篇论文理解的不到位吗?还是基础知识不行没有理解?

One-paper-luck commented 2 months ago

@Dingxiangtao pre_scene_features 只产生了scene_feature,存储最后两个卷积层特征,实际只用了最后一个卷积层。你需要自己写个脚本用torch提供的预训练faster R-CNN模型提取ROI特征

Dingxiangtao commented 2 months ago

不好意思前辈,是我自己搞错了,我用的是您提供的提取好的Sydney_Captions的特征。所以可以正常训练

Dingxiangtao commented 1 month ago

没有特别的代码,每个ROI特征经过池化操作处理即可。比如给定一个ROI特征size是14x14x1024,只需要使用一个1x1池化操作就可以将目标表示为1x1024。

前辈您好,这里每张图像您的ROI特征的size经过池化后是(50,1024)的,也就是说每张图像有50个ROI,每个ROI的向量是1024×1的,那么这50个ROI特征是如何选取的,因为我生成的size是(1000,1024)的,如何处理。感谢

前辈,我想问一下为什么我生产的size是(50,256)啊?我看网上说直接填充,然后维度是对上了,但我拿来做测试,生成的字幕效果很差

Dingxiangtao commented 1 month ago

@Dingxiangtao pre_scene_features 只产生了scene_feature,存储最后两个卷积层特征,实际只用了最后一个卷积层。你需要自己写个脚本用torch提供的预训练faster R-CNN模型提取ROI特征 前辈你好,论文结构图中有对提取的特征分别进行reshape和AAP操作,但我在代码中并没有找到,是在提取特征时就已经处理了吗?

One-paper-luck commented 1 month ago

@Dingxiangtao 是的,提取特征顺便用了