Closed AresXD closed 3 months ago
感谢您对我们工作的关注。正如您所说,instruct-tuning LLM在生成时可以更好地follow instruction,从而保证预测性能(格式规范,更好理解任务)
本文中用到的LLaMA2-7B-32k模型除了在long context上有微调之外,也在一些长文本任务(summarization &long context QA)数据上进行了指令微调。鉴于llama-chat context window有限,所以在初版并没有选用
所以, LLaMA2-7B-32k这个模型是你们自己基于LLaMA2-7B微调的长文本模型? 而不是huggingface上, 如: togethercomputer/LLaMA-2-7B-32K? 如果我要测试效果, 需要重新下载你们的模型, 对吧
本文中所用到的LLaMA2-7B-32k是Huggingface上开源模型,可以直接下载测试
我看论文里选了llama拓展到32k长度的做摘要评估,然后其他的一些longllama,gpt之类的可能多少都有指令微调过,已经有了对相应任务的理解,不确定你们选的这个llama32k是不是以language model的形式拓展长度的,如果是这样,怎么确定比较公平性哇? 或者有没有考虑引入llama-chat版本还有一些其他的指令微调且长度拓展的llama模型做评估哦