bigai-nlco / LooGLE

ACL 2024 | LooGLE: Long Context Evaluation for Long-Context Language Models
MIT License
147 stars 6 forks source link

Question about model selection #3

Closed AresXD closed 3 months ago

AresXD commented 10 months ago

我看论文里选了llama拓展到32k长度的做摘要评估,然后其他的一些longllama,gpt之类的可能多少都有指令微调过,已经有了对相应任务的理解,不确定你们选的这个llama32k是不是以language model的形式拓展长度的,如果是这样,怎么确定比较公平性哇? 或者有没有考虑引入llama-chat版本还有一些其他的指令微调且长度拓展的llama模型做评估哦

lijiaqijane commented 10 months ago

感谢您对我们工作的关注。正如您所说,instruct-tuning LLM在生成时可以更好地follow instruction,从而保证预测性能(格式规范,更好理解任务)

本文中用到的LLaMA2-7B-32k模型除了在long context上有微调之外,也在一些长文本任务(summarization &long context QA)数据上进行了指令微调。鉴于llama-chat context window有限,所以在初版并没有选用

PeiqinSun commented 8 months ago

所以, LLaMA2-7B-32k这个模型是你们自己基于LLaMA2-7B微调的长文本模型? 而不是huggingface上, 如: togethercomputer/LLaMA-2-7B-32K? 如果我要测试效果, 需要重新下载你们的模型, 对吧

lijiaqijane commented 8 months ago

本文中所用到的LLaMA2-7B-32k是Huggingface上开源模型,可以直接下载测试