关于Visual Grounding的一些细节

ZihaoZheng98 commented 2 years ago

你们好，再次打扰一下哈。关于Visual Grounding,想请教一些问题，对于关系抽取任务 1）在第一步解析名词短语时，我看数据集还给出了头实体和尾实体，这个是也会作为名词短语，用于输入到visual grounding工具中吗？ 2）One stage visual grounding一共提供了两个checkpoint，我看这两个数据集中，实体一般比较粗，例如人只有man这种粒度的，而MRE数据集中，其一般为命名实体。是否在第一步parser之后，直接用parser出的名词短语直接输入到visual grounding工具中，还是要进行一些处理来识别出所抽取名词短语的类别呢？

非常感谢！

flow3rdown commented 2 years ago

1）给出头实体和尾实体的数据集指的是MKG中的数据集吗？由于MKG中的数据每个实体包含了多张图片，我们是没有再进行visual grounding的，只在MRE和MNER任务中进行名词抽取和visual grounding操作。 2）在实际操作中，除了抽取名词短语外，我们还额外添加了person，location，organization等词语辅助进行抽取

ZihaoZheng98 commented 2 years ago

1）啊不是，在关系抽取任务中，每条数据不是会给出头实体，尾实体，然后对头尾实体的关系进行分类吗。就比如说 {'token': ['#', '8', ':', 'The', 'Longest', 'Yard', ':', 'The', 'Longest', 'Yard', 'Adam', 'Sandler', '(', 'Actor', ')', ',', 'Chris', 'Rock', '(', 'Actor', ')', '…'], 'h': {'name': 'Adam Sandler', 'pos': [10, 12]}, 't': {'name': 'The Longest Yard', 'pos': [3, 6]}, 'relation': '/per/misc/present_in', 'img_id': 'O_4509.jpg} 中，h和t是头尾实体嘛。 2）如1）所说，其实头尾实体会标出来嘛，我意思是说，这种实体会不会也作为名词短语进行grounding。然后，除了上面说的 person, location, organization，还有哪些词语进行辅助抽取吗？我们现在有个项目也需要使用类似的方式对数据进行处理，想知道一些更多细节，非常感谢

ZihaoZheng98 commented 2 years ago

我注意到在关系抽取数据集的 img_vg中，在test集合，有一些相同句子，相同图片，不同实体对的数据，其所抽取出的子图不太一样。例如数据1555-1557，对应于vg下标 1554-1556，抽取出的子图是不一样的？句子一样，图片一样，按理说抽取出的子图应该是一样的吧？

flow3rdown commented 2 years ago

1）啊不是，在关系抽取任务中，每条数据不是会给出头实体，尾实体，然后对头尾实体的关系进行分类吗。就比如说 {'token': ['#', '8', ':', 'The', 'Longest', 'Yard', ':', 'The', 'Longest', 'Yard', 'Adam', 'Sandler', '(', 'Actor', ')', ',', 'Chris', 'Rock', '(', 'Actor', ')', '…'], 'h': {'name': 'Adam Sandler', 'pos': [10, 12]}, 't': {'name': 'The Longest Yard', 'pos': [3, 6]}, 'relation': '/per/misc/present_in', 'img_id': 'O_4509.jpg} 中，h和t是头尾实体嘛。 2）如1）所说，其实头尾实体会标出来嘛，我意思是说，这种实体会不会也作为名词短语进行grounding。然后，除了上面说的 person, location, organization，还有哪些词语进行辅助抽取吗？我们现在有个项目也需要使用类似的方式对数据进行处理，想知道一些更多细节，非常感谢

训练集可以使用头尾实体抽取子图，测试集和验证集要先进行名词提取，再抽取子图。除了person, location, organization外，未使用其他的词语进行辅助抽取。

flow3rdown commented 2 years ago

我们限制每个正图抽取4张子图，如果从文本中抽取出的名词短语不够4个时，就从辅助词语[person, location ,organization]中随机添加直到名词短语达到4个，可能是因为添加的辅助词语不同导致抽取出的子图不一致，也可能是因为visual grounding工具的原因。

zjunlp / MKGformer

关于Visual Grounding的一些细节 #8