结果问题 - Githubissues

LaVieEnRose365 / ReLLa

Code of Paper "ReLLa: Retrieval-enhanced Large Language Models for Mitigating Long Context Problems in Recommendation".

41 stars 4 forks source link

结果问题 #10

Closed Cxx-0 closed 4 months ago

Cxx-0 commented 4 months ago

首先感谢作者的非常好的工作，我使用Vicuna-13B得到了很好地复现结果。但是我很好奇，如果使用LLama 7B，在相同epoch的情况下，例如10个epoch，LLama 7B的AUC只有0.6。但正常Vicuna-13B可以获得超过0.7的AUC。想请教一下为什么LLama 7B的结果会比Vicuna差这么多。

LaVieEnRose365 commented 4 months ago

感谢您对我们工作的支持。Llama-7B比Vicuna-13B结果差的原因可能有下面几点：

模型规模。
Vicuna作为一个chatbot，有更好的指令遵循能力；此外，我们代码中给出的prompt是针对Vicuna的，如果是Llama，则需要更改prompt，具体可以参考huggingface tokenizer的chat_template。
我们在论文appendix中也给出了不同LLM的zero-shot和few-shot结果，令人惊讶的是Llama2-70B的zero-shot结果甚至不如Vicuna-7B，可能Llama2的训练数据中相关类型的数据占比会比较少。

Cxx-0 commented 4 months ago

感谢回答