关于论文MeLLo复现的问题

Hengrui-Gu / PokeMQA

[ACL 2024] PokeMQA: Programmable knowledge editing for Multi-hop Question Answering

MIT License

13 stars 0 forks source link

关于论文MeLLo复现的问题 #1

Closed LG9077 closed 7 months ago

LG9077 commented 8 months ago

您的论文“PokeMQA: Programmable knowledge editing for Multi-hop Question”的Table 1，MeLLo方法在1 edited的情况下，MQuAKE-CF-3k数据集和模型GPT-3 Turbo Instruct的setting下multi-hop accuracy为0.57。我们使用原论文的代码MQuAKE/run_mello.ipynb，只能达到0.28的准确率。请问您是在MeLLo原代码基础上做了变动吗，比如换了更高效的检索器？然后是您仓库内代码PokeMQA-turbo_n_edited.py中41行使用了gpt-3.5-turbo，为什么没有-instruct呢？

Hengrui-Gu commented 8 months ago

您好，感谢关注。

Question 1:

为了准确地计算本文中提出的指标Hop-Acc，我们将run_mello.ipynb中循环调用LLM进行问题分解的代码段落其循环次数由4次改为5次，并实验得到了Table 1中的结果。

Question 2:

已修正，使用的模型为gpt-3.5-turbo-instruct。

XZhang00 commented 3 months ago

您好，请问一下在LLaMa-2上复现MeLLo时，pormpt需要调整吗？以及模型的generate_config是什么呢？我似乎复现不出论文中的结果；

期待您的回复！

Hengrui-Gu commented 3 months ago

@XZhang00 您好！论文中有关MeLLo的结果是在Llama-2-7b模型上使用原始prompt，以及greedy decoding (temperature = 0）得到的。

XZhang00 commented 3 months ago

非常感谢您的解答！

另一个问题：“100 edited“是指从3K数据中随机挑选100个instances做编辑？还是3K数据随机划分为30个batch，对30个batch都编辑，再对结果取平均呢？

Hengrui-Gu commented 3 months ago

@XZhang00 “100 edited”是使用分层采样按照多跳问题跳数将3K数据划分为30个batch，以每个batch为基本单位完成编辑和测试，最后取30个batch的平均结果。具体细节可以参考论文 Section 4.3 Implementation Details 部分以及本repo中 PokeMQA-turbo_n_edited.py 给出的具体实现。

XZhang00 commented 3 months ago

好的明白了，非常感谢您的解答！