LaVieEnRose365 / ReLLa

Code of Paper "ReLLa: Retrieval-enhanced Large Language Models for Mitigating Long Context Problems in Recommendation".
41 stars 4 forks source link

结果问题 #10

Closed Cxx-0 closed 4 months ago

Cxx-0 commented 4 months ago

首先感谢作者的非常好的工作,我使用Vicuna-13B得到了很好地复现结果。但是我很好奇,如果使用LLama 7B,在相同epoch的情况下,例如10个epoch,LLama 7B的AUC只有0.6。但正常Vicuna-13B可以获得超过0.7的AUC。想请教一下为什么LLama 7B的结果会比Vicuna差这么多。

LaVieEnRose365 commented 4 months ago

感谢您对我们工作的支持。Llama-7B比Vicuna-13B结果差的原因可能有下面几点:

  1. 模型规模。
  2. Vicuna作为一个chatbot,有更好的指令遵循能力;此外,我们代码中给出的prompt是针对Vicuna的,如果是Llama,则需要更改prompt,具体可以参考huggingface tokenizer的chat_template。
  3. 我们在论文appendix中也给出了不同LLM的zero-shot和few-shot结果,令人惊讶的是Llama2-70B的zero-shot结果甚至不如Vicuna-7B,可能Llama2的训练数据中相关类型的数据占比会比较少。
Cxx-0 commented 4 months ago

感谢回答