zjunlp / MKGformer

[SIGIR 2022] Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge Graph Completion
MIT License
168 stars 28 forks source link

关于Visual Grounding的一些细节 #8

Closed ZihaoZheng98 closed 2 years ago

ZihaoZheng98 commented 2 years ago

你们好,再次打扰一下哈。关于Visual Grounding,想请教一些问题,对于关系抽取任务 1)在第一步解析名词短语时,我看数据集还给出了头实体和尾实体,这个是也会作为名词短语,用于输入到visual grounding工具中吗? 2)One stage visual grounding一共提供了两个checkpoint,我看这两个数据集中,实体一般比较粗,例如人只有man这种粒度的,而MRE数据集中,其一般为命名实体。是否在第一步parser之后,直接用parser出的名词短语直接输入到visual grounding工具中,还是要进行一些处理来识别出所抽取名词短语的类别呢?

非常感谢!

flow3rdown commented 2 years ago

1)给出头实体和尾实体的数据集指的是MKG中的数据集吗?由于MKG中的数据每个实体包含了多张图片,我们是没有再进行visual grounding的,只在MRE和MNER任务中进行名词抽取和visual grounding操作。 2)在实际操作中,除了抽取名词短语外,我们还额外添加了person,location,organization等词语辅助进行抽取

ZihaoZheng98 commented 2 years ago

1)啊 不是,在关系抽取任务中,每条数据不是会给出 头实体,尾实体,然后对头尾实体的关系进行分类吗。 就比如说 {'token': ['#', '8', ':', 'The', 'Longest', 'Yard', ':', 'The', 'Longest', 'Yard', 'Adam', 'Sandler', '(', 'Actor', ')', ',', 'Chris', 'Rock', '(', 'Actor', ')', '…'], 'h': {'name': 'Adam Sandler', 'pos': [10, 12]}, 't': {'name': 'The Longest Yard', 'pos': [3, 6]}, 'relation': '/per/misc/present_in', 'img_id': 'O_4509.jpg} 中,h和t是头尾实体嘛。 2)如1)所说,其实头尾实体会标出来嘛,我意思是说,这种实体会不会也作为名词短语进行grounding。 然后,除了上面说的 person, location, organization,还有哪些词语进行辅助抽取吗? 我们现在有个项目也需要使用类似的方式对数据进行处理,想知道一些更多细节,非常感谢

ZihaoZheng98 commented 2 years ago

我注意到在关系抽取数据集的 img_vg中,在test集合,有一些 相同句子,相同图片,不同实体对的数据,其所抽取出的子图不太一样。例如 数据1555-1557,对应于vg下标 1554-1556,抽取出的子图是不一样的? 句子一样,图片一样,按理说抽取出的子图应该是一样的吧?

flow3rdown commented 2 years ago

1)啊 不是,在关系抽取任务中,每条数据不是会给出 头实体,尾实体,然后对头尾实体的关系进行分类吗。 就比如说 {'token': ['#', '8', ':', 'The', 'Longest', 'Yard', ':', 'The', 'Longest', 'Yard', 'Adam', 'Sandler', '(', 'Actor', ')', ',', 'Chris', 'Rock', '(', 'Actor', ')', '…'], 'h': {'name': 'Adam Sandler', 'pos': [10, 12]}, 't': {'name': 'The Longest Yard', 'pos': [3, 6]}, 'relation': '/per/misc/present_in', 'img_id': 'O_4509.jpg} 中,h和t是头尾实体嘛。 2)如1)所说,其实头尾实体会标出来嘛,我意思是说,这种实体会不会也作为名词短语进行grounding。 然后,除了上面说的 person, location, organization,还有哪些词语进行辅助抽取吗? 我们现在有个项目也需要使用类似的方式对数据进行处理,想知道一些更多细节,非常感谢

训练集可以使用头尾实体抽取子图,测试集和验证集要先进行名词提取,再抽取子图。除了person, location, organization外,未使用其他的词语进行辅助抽取。

flow3rdown commented 2 years ago

我们限制每个正图抽取4张子图,如果从文本中抽取出的名词短语不够4个时,就从辅助词语[person, location ,organization]中随机添加直到名词短语达到4个,可能是因为添加的辅助词语不同导致抽取出的子图不一致,也可能是因为visual grounding工具的原因。