Hengrui-Gu / PokeMQA

[ACL 2024] PokeMQA: Programmable knowledge editing for Multi-hop Question Answering
MIT License
13 stars 0 forks source link

关于论文MeLLo复现的问题 #1

Closed LG9077 closed 7 months ago

LG9077 commented 8 months ago

您的论文“PokeMQA: Programmable knowledge editing for Multi-hop Question”的Table 1,MeLLo方法在1 edited的情况下,MQuAKE-CF-3k数据集和模型GPT-3 Turbo Instruct的setting下multi-hop accuracy为0.57。我们使用原论文的代码MQuAKE/run_mello.ipynb,只能达到0.28的准确率。请问您是在MeLLo原代码基础上做了变动吗,比如换了更高效的检索器?然后是您仓库内代码PokeMQA-turbo_n_edited.py中41行使用了gpt-3.5-turbo,为什么没有-instruct呢?

Hengrui-Gu commented 8 months ago

您好,感谢关注。

Question 1:

为了准确地计算本文中提出的指标Hop-Acc,我们将run_mello.ipynb中循环调用LLM进行问题分解的代码段落其循环次数由4次改为5次,并实验得到了Table 1中的结果。

Question 2:

已修正,使用的模型为gpt-3.5-turbo-instruct。

XZhang00 commented 3 months ago

您好,请问一下在LLaMa-2上复现MeLLo时,pormpt需要调整吗?以及模型的generate_config是什么呢?我似乎复现不出论文中的结果;

期待您的回复!

Hengrui-Gu commented 3 months ago

@XZhang00 您好! 论文中有关MeLLo的结果是在Llama-2-7b模型上使用原始prompt,以及greedy decoding (temperature = 0)得到的。

XZhang00 commented 3 months ago

非常感谢您的解答!

另一个问题:“100 edited“是指从3K数据中随机挑选100个instances做编辑?还是3K数据随机划分为30个batch,对30个batch都编辑,再对结果取平均呢?

Hengrui-Gu commented 3 months ago

@XZhang00 “100 edited”是使用分层采样按照多跳问题跳数将3K数据划分为30个batch,以每个batch为基本单位完成编辑和测试,最后取30个batch的平均结果。具体细节可以参考论文 Section 4.3 Implementation Details 部分 以及本repo中 PokeMQA-turbo_n_edited.py 给出的具体实现。

XZhang00 commented 3 months ago

好的明白了,非常感谢您的解答!