关于实验结果的疑问

Frusciante7 commented 2 days ago

作者您好！我在论文里在生成阶段给出full document的QG结果的指标都略微优于只给出supporting facts的，请问如何解释或者分析这个现象？如果引入了无关文档的干扰，应该对结果会产生负面的影响，为什么最终产生的问题的一系列机器指标都更好了呢？

另外，如果方便的话，可以放出full document版本的HotpotQA数据集吗？

zeaver commented 2 days ago

非常感谢您对本工作的关注～您是复现的结论和我论文里的冲突吗，还是对论文里的实验结果有疑问？我先暂且按照我的理解回答吧。

Q1 full document的QG结果的指标都略微优于只给出supporting facts的，请问如何解释或者分析这个现象？

A1

full document的输入是：两段明确和question相关的doc，人工标注的，在hotpotqa的数据集里有说明。虽然在hotpotqa benchmark 中，full wiki setting给的candidates 有20 docs，但qg的输入还是2 golden docs，不是全部20。
为什么在 multifactor 上， full doc 的效果略好于 supporting facts，而在直接finetuned t5的时候，full doc bleu4 指标只有20，低于 supporting facts 的25？我觉得可以从三点回答你的疑惑：

（a）无关文档的干扰：输入文档一定是相关的！第一点明确说了qg模型的输入，一定是人工标注的 2 golden docs。

（b）输入更长，噪音会更多吗？我的理解是不一定。可以看一些qg的survey，早期的qg工作backbone基本上都是lstm，因此必须要保证输入token的长度短，并且需要注意，这里的短并非llm时代的短，可能100个token他们就不能接受 qg 的效果了！lstm的backbone，使用两个doc的所有句子，那就是非常长了，使用完整doc输入效果肯定比select sentence 作为输入差！但是对于t5、bart而言，512的token长度完全够cover两个doc。使用nltk的tokenizer统计了一下输入，full doc setting 的长度也就200-300左右。而 squad 两个qg数据集的输入只有30和120，输出的问句hotpotqa和squad大概是20和10.

（c）不使用任何训练技巧，直接使用t5和bart进行sft，full doc < supproting facts很正常。使用 multifactor 后，full doc > supproting facts 恰恰是证明了我们短语级别语义增强方法的有效性。

Q2 数据集

A2

当时这篇稿子第一次投稿acl23没做 full doc 的实验，为了进一步证明方法的有效性，后面四五月份补的实验。数据集因为合规问题在另外一些服务器上，拿不下来。研三的时候配置环境和重新看一遍代码太折磨了，因此便没整理了。你可以使用 spacy 的entity和短语抽取跑一下。。。

补充

可以看一下 su 和 pan 在 2020 emnlp 的工作，关于hotpotqa的qg，su做的是full doc，pan做的是 supporting facts。后者在输入上较有优势，可能因此后者是main前者是findings哈哈哈。如何做的短语抽取、当时做知识增强qg的一点insight，可以看我之前给另一位同学回复的issue：https://github.com/zeaver/MultiFactor/issues/6。

参考

[1] Su, Dan, et al. Multi-hop Question Generation with Graph Convolutional Network EMNLP findings, 2020.

[2] Rajpurkar, Pranav, et al. SQuAD: 100,000+ Questions for Machine Comprehension of Text. EMNLP, 2016.

[3] Zhou, Qingyu, et al. Neural Question Generation from Text: A Preliminary Study. EMNLP, 2017.

[4] Pan, Liangming, et al. Semantic Graphs for Generating Deep Questions. EMNLP 2020

Frusciante7 commented 2 days ago

好的，感谢大佬详细的答复！我先前以为full的设置可能会给20个documents进去（？），才产生了这些疑惑，后来发现是hotpotQA的supporting fact是句子级的。那么增加一些相关信息确实可以对QG的结果有增强的效果。考虑到LLM时代，使用较长的文本输入去做QG可能是一个导向（包括对一些没有这样细粒度标注supporting fact的数据集），full doc > supproting facts的结果也是一个小的启发！

zeaver / MultiFactor

关于实验结果的疑问 #7

Q1 full document的QG结果的指标都略微优于只给出supporting facts的，请问如何解释或者分析这个现象？

A1

Q2 数据集

A2

补充

参考