TigerResearch / TigerBot

TigerBot: A multi-language multi-task LLM
https://www.tigerbot.com
Apache License 2.0
2.24k stars 194 forks source link

关于增量预训练的数据切片问题 #138

Closed AlphaINF closed 1 year ago

AlphaINF commented 1 year ago

从贵司发布首个模型开始,我就一直在关注贵司的研发。 从我们试用贵司70B模型执行复杂推理prompt的情况来看,贵司70B模型的整体性能超过Claude2,大幅超越GPT-3.5,在推理方面基本是中文模型中最强的存在。 我们团队需要在某一垂直领域上对模型进行增量预训练,单篇语料的长度均在万字以上,需要切片才能进行增量预训练。 我们比较好奇贵司在数据切片时采用的方法,如何保持语义完整的前提下实现合理的切片。 感谢!

i4never commented 1 year ago

一般来说,有大量语料的情况下,语料切片不会带来明显的负面影响。如果实在担心,可以加大max_seq_length减少断点,或者切片时允许前后语料有一部分首位重叠等方式。

AlphaINF commented 1 year ago

非常感谢!!!