是否考虑训练一个context更长的模型

LlamaFamily / Llama-Chinese

Llama中文社区，Llama3在线体验和微调模型已开放，实时汇总最新Llama3学习资料，已将所有代码更新适配Llama3，构建最好的中文Llama大模型，完全开源可商用

https://llama.family

14.01k stars 1.26k forks source link

是否考虑训练一个context更长的模型 #225

Open yuyijiong opened 1 year ago

yuyijiong commented 1 year ago

现有模型context长度都是4k，已经有YaRN等先进方法可以扩展context长度到100k以上。但是我缺乏中文预训练数据，目前也没有context足够长的中文模型。如果拿现有中文llama模型，进行YaRN插值后，再继续微调几百步（可以使用longlora方法），应该可以获得一个长文本的中文模型，对于某些场景更适用。