SkyworkAI / Skywork

Skywork series models are pre-trained on 3.2TB of high-quality multilingual (mainly Chinese and English) and code data. We have open-sourced the model, training data, evaluation data, evaluation methods, etc. 天工系列模型在3.2TB高质量多语言和代码数据上进行预训练。我们开源了模型参数,训练数据,评估数据,评估方法。
Other
1.21k stars 111 forks source link

会支持更多的上下文吗,目前是4k吧 #17

Closed RipperTs closed 10 months ago

zhao1iang commented 10 months ago

您可以通过YaRN,PI,NTK等方法可以通过少量微调轻松将基于RoPE position embedding的模型(包括我们模型)扩展到32K以上。如果您没有机器资源进行微调,可以使用DynamicNTK的方法不需要微调也可以扩展到16K左右 ,您如果有需求的话,可以先尝试这些方法进行长上下文扩展。