Open yuyijiong opened 1 year ago
现有模型context长度都是4k,已经有YaRN等先进方法可以扩展context长度到100k以上。但是我缺乏中文预训练数据,目前也没有context足够长的中文模型。如果拿现有中文llama模型,进行YaRN插值后,再继续微调几百步(可以使用longlora方法),应该可以获得一个长文本的中文模型,对于某些场景更适用。
现有模型context长度都是4k,已经有YaRN等先进方法可以扩展context长度到100k以上。但是我缺乏中文预训练数据,目前也没有context足够长的中文模型。如果拿现有中文llama模型,进行YaRN插值后,再继续微调几百步(可以使用longlora方法),应该可以获得一个长文本的中文模型,对于某些场景更适用。