shenxiang-vqa / LSAT

Local self-attention in Transformer for visual question answering
Apache License 2.0
11 stars 0 forks source link

图像特征 #1

Open linalemon1 opened 11 months ago

linalemon1 commented 11 months ago

作者,您好,请问data文件夹里面可以提供VQA2.0数据集的图像特征提取的代码吗?

linalemon1 commented 11 months ago

Hello, author, this is excellent work. I am very interested in extracting image grid features from the VQA2.0 dataset. Could the code for image feature extraction from the VQA2.0 dataset be provided in the data folder? This is my email: [cse.nli21@gzu.edu.cn], thank you very much!

shenxiang-vqa commented 11 months ago

作者,您好,请问data文件夹里面可以提供VQA2.0数据集的图像特征提取的代码吗?

我们提取8*8网格图像特征的方式和TRAR模型的base一样的,你也可以参考In defense of grid features for visual question answering提取方式。

linalemon1 commented 11 months ago

非常感谢您的回复!最近很苦恼,看到您的论文后给了我一个极大的动力   还有一个小问题想跟您请教,对于VQA2.0数据集图像特征的处理(我需要采用网格特征)以及后面的模型框架,在看完网格特征论文In Defense of Grid Features for Visual Question Answering之后,我还是不太确定里面是否用到了fasterR-CNN的框(因为In Defense of Grid Features for Visual Question Answering论文中后面的改进方法提到了1*1的ROIPool,我的数据集无法支持我利用框),所以(1)您论文的网格特征是否会用到框?(2)该论文In Defense of Grid Features for Visual Question Answering图像特征是否用到了框? 谢谢您!

A @.***

 

------------------ 原始邮件 ------------------ 发件人: "shenxiang-vqa/LSAT" @.>; 发送时间: 2023年10月20日(星期五) 下午3:16 @.>; @.**@.>; 主题: Re: [shenxiang-vqa/LSAT] 图像特征 (Issue #1)

作者,您好,请问data文件夹里面可以提供VQA2.0数据集的图像特征提取的代码吗?

我们提取8*8网格图像特征的方式和TRAR模型的base一样的,你也可以参考In defense of grid features for visual question answering提取方式。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

shenxiang-vqa commented 10 months ago

非常感谢您的回复!最近很苦恼,看到您的论文后给了我一个极大的动力   还有一个小问题想跟您请教,对于VQA2.0数据集图像特征的处理(我需要采用网格特征)以及后面的模型框架,在看完网格特征论文In Defense of Grid Features for Visual Question Answering之后,我还是不太确定里面是否用到了fasterR-CNN的框(因为In Defense of Grid Features for Visual Question Answering论文中后面的改进方法提到了1*1的ROIPool,我的数据集无法支持我利用框),所以(1)您论文的网格特征是否会用到框?(2)该论文In Defense of Grid Features for Visual Question Answering图像特征是否用到了框? 谢谢您! A @.   ------------------ 原始邮件 ------------------ 发件人: "shenxiang-vqa/LSAT" @.>; 发送时间: 2023年10月20日(星期五) 下午3:16 @.>; @*.**@*.>; 主题: Re: [shenxiang-vqa/LSAT] 图像特征 (Issue #1) 作者,您好,请问data文件夹里面可以提供VQA2.0数据集的图像特征提取的代码吗? 我们提取88网格图像特征的方式和TRAR模型的base一样的,你也可以参考In defense of grid features for visual question answering提取方式。 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: **@.***>

读者:论文中都使用了网格特征和区域特征,网格特征也可以自己提取,按照自己的需求提取,比如88或者1616的。都是可以自己提取的。