zeaver / MultiFactor

Implementation of EMNLP 2023 Findings: Improving Question Generation with Multi-level Content Planning
MIT License
19 stars 2 forks source link

关于实验结果的疑问 #7

Open Frusciante7 opened 2 days ago

Frusciante7 commented 2 days ago

作者您好!我在论文里在生成阶段给出full document的QG结果的指标都略微优于只给出supporting facts的,请问如何解释或者分析这个现象?如果引入了无关文档的干扰,应该对结果会产生负面的影响,为什么最终产生的问题的一系列机器指标都更好了呢?

另外,如果方便的话,可以放出full document版本的HotpotQA数据集吗?

zeaver commented 2 days ago

非常感谢您对本工作的关注~您是复现的结论和我论文里的冲突吗,还是对论文里的实验结果有疑问?我先暂且按照我的理解回答吧。

Q1 full document的QG结果的指标都略微优于只给出supporting facts的,请问如何解释或者分析这个现象?

A1

  1. full document的输入是:两段明确和question相关的doc,人工标注的,在hotpotqa的数据集里有说明。虽然在hotpotqa benchmark 中,full wiki setting给的candidates 有20 docs,但qg的输入还是2 golden docs,不是全部20。
  2. 为什么在 multifactor 上, full doc 的效果略好于 supporting facts,而在直接finetuned t5的时候,full doc bleu4 指标只有20,低于 supporting facts 的25?我觉得可以从三点回答你的疑惑:

(a)无关文档的干扰:输入文档一定是相关的!第一点明确说了qg模型的输入,一定是人工标注的 2 golden docs。

(b)输入更长,噪音会更多吗?我的理解是不一定。可以看一些qg的survey,早期的qg工作backbone基本上都是lstm,因此必须要保证输入token的长度短,并且需要注意,这里的短并非llm时代的短,可能100个token他们就不能接受 qg 的效果了!lstm的backbone,使用两个doc的所有句子,那就是非常长了,使用完整doc输入效果肯定比select sentence 作为输入差!但是对于t5、bart而言,512的token长度完全够cover两个doc。使用nltk的tokenizer统计了一下输入,full doc setting 的长度也就200-300左右。而 squad 两个qg数据集的输入只有30和120,输出的问句hotpotqa和squad大概是20和10.

(c)不使用任何训练技巧,直接使用t5和bart进行sft,full doc < supproting facts很正常。使用 multifactor 后,full doc > supproting facts 恰恰是证明了我们 短语级别 语义增强方法的有效性。

Q2 数据集

A2

当时这篇稿子第一次投稿acl23没做 full doc 的实验,为了进一步证明方法的有效性,后面四五月份补的实验。数据集因为合规问题在另外一些服务器上,拿不下来。研三的时候配置环境和重新看一遍代码太折磨了,因此便没整理了。你可以使用 spacy 的entity和短语抽取跑一下。。。

补充

可以看一下 su 和 pan 在 2020 emnlp 的工作,关于hotpotqa的qg,su做的是full doc,pan做的是 supporting facts。后者在输入上较有优势,可能因此后者是main前者是findings哈哈哈。如何做的短语抽取、当时做知识增强qg的一点insight,可以看我之前给另一位同学回复的issue:https://github.com/zeaver/MultiFactor/issues/6

参考

[1] Su, Dan, et al. Multi-hop Question Generation with Graph Convolutional Network EMNLP findings, 2020.

[2] Rajpurkar, Pranav, et al. SQuAD: 100,000+ Questions for Machine Comprehension of Text. EMNLP, 2016.

[3] Zhou, Qingyu, et al. Neural Question Generation from Text: A Preliminary Study. EMNLP, 2017.

[4] Pan, Liangming, et al. Semantic Graphs for Generating Deep Questions. EMNLP 2020

Frusciante7 commented 2 days ago

好的,感谢大佬详细的答复!我先前以为full的设置可能会给20个documents进去(?),才产生了这些疑惑,后来发现是hotpotQA的supporting fact是句子级的。那么增加一些相关信息确实可以对QG的结果有增强的效果。考虑到LLM时代,使用较长的文本输入去做QG可能是一个导向(包括对一些没有这样细粒度标注supporting fact的数据集),full doc > supproting facts的结果也是一个小的启发!