Closed n9705 closed 3 years ago
我看到《Exploring Visual Relationship for Image Captioning 》一文中是待检测的predicate会多一个Non-relation一类,方便得出区域对无关系。但您的coco_dicts.json中似乎并没有类似的类别,所以我觉得您应该不是这么做的。
多谢提问。对的,confidence高于一个域值才会判定其有关系;域值的选取方式是让训练和测试集的图均predicate数量比较接近。
多谢提问。对的,confidence高于一个域值才会判定其有关系;域值的选取方式是让训练和测试集的图均predicate数量比较接近。
非常感谢您的回答。还有个问题想请教下,文章第7页有提到您从训练集的caption中提取出现过413个物体的triple,并将triple中最常出现的200个predicate作为predicate分类的类别。但您的coco_dicts.json中似乎有1000个predicate类别,这让我有一些疑惑。
多谢提问,你可以在scripts/prepro_predicates.py改这个参数。我试过200,400, 1000,对最终结果影响不大。
非常感谢您的回答,谢谢!
多谢提问,你可以在scripts/prepro_predicates.py改这个参数。我试过200,400, 1000,对最终结果影响不大。
您好,我看了一下您的代码,写的很棒,但我有几个小问题想再次请教下您: 1、在您gnn的代码中,似乎没有找到论文中公式9的实现,只有公式8的实现。即context-aware只用在了relation节点上,没有用在object节点上,请问这是为什么呢? 2、在原论文中,第一层LSTM的输入的平均图像特征是编码后的图节点平均特征,但您的代码中似乎是采用resnet输出的全局图像特征。
你好,想请问下关于论文中公式9的问题 公式9中写道object节点是和相邻接点做运算,请问是和相邻的object节点还是和相邻的relation节点做运算呢?
多谢提问,是和相邻的relation node做运算,我这版代码里因为跑起来太慢了把那段精简掉了。写法:如果要batch化就仿照(s, o ,r)那里构建个(r_1, r_2, o)的edge matrix (分别代表in 和out edge),然后和relation node的conv一样;如果不batch化就循环在(s, o ,r)里算。因为obj节点的数量比较多,batch的比较费内存,不batch的比较费时间。
谢谢您的回答,我仿照SGAE中的GNN代码仿写了object节点的编码。速度确实降了很多,以前一个epoch只需要一小时,现在需要三小时,有点难受
您好,不好意思,再次打扰下您。请问您能开源构建multiple instance learning构建sence graph部分的代码吗?我想深入学习一下,谢谢🙏
抱歉,pls refer to this issue: https://github.com/Gitsamshi/WeakVRD-Captioning/issues/11
如文章中所说,一张图片经过目标检测网络可以得到n个区域,这n个区域两两匹配有n(n-1)种可能,每对区域都会经过predicate classification。如果每一对区域都预测出一个predicate,那么得到的visual relation graph就会非常杂乱。请问是否是当预测的predicate的概率大于某个阈值的时候,才判定这对区域之间存在联系呢?