Question about model selection

bigai-nlco / LooGLE

ACL 2024 | LooGLE: Long Context Evaluation for Long-Context Language Models

MIT License

147 stars 6 forks source link

Question about model selection #3

Closed AresXD closed 3 months ago

AresXD commented 10 months ago

我看论文里选了llama拓展到32k长度的做摘要评估，然后其他的一些longllama，gpt之类的可能多少都有指令微调过，已经有了对相应任务的理解，不确定你们选的这个llama32k是不是以language model的形式拓展长度的，如果是这样，怎么确定比较公平性哇？或者有没有考虑引入llama-chat版本还有一些其他的指令微调且长度拓展的llama模型做评估哦

lijiaqijane commented 10 months ago

感谢您对我们工作的关注。正如您所说，instruct-tuning LLM在生成时可以更好地follow instruction，从而保证预测性能（格式规范，更好理解任务）

本文中用到的LLaMA2-7B-32k模型除了在long context上有微调之外，也在一些长文本任务（summarization &long context QA）数据上进行了指令微调。鉴于llama-chat context window有限，所以在初版并没有选用

PeiqinSun commented 8 months ago

所以, LLaMA2-7B-32k这个模型是你们自己基于LLaMA2-7B微调的长文本模型? 而不是huggingface上, 如: togethercomputer/LLaMA-2-7B-32K? 如果我要测试效果, 需要重新下载你们的模型, 对吧

lijiaqijane commented 8 months ago

本文中所用到的LLaMA2-7B-32k是Huggingface上开源模型，可以直接下载测试