关于增量预训练的数据切片问题

AlphaINF commented 1 year ago

从贵司发布首个模型开始，我就一直在关注贵司的研发。从我们试用贵司70B模型执行复杂推理prompt的情况来看，贵司70B模型的整体性能超过Claude2，大幅超越GPT-3.5，在推理方面基本是中文模型中最强的存在。我们团队需要在某一垂直领域上对模型进行增量预训练，单篇语料的长度均在万字以上，需要切片才能进行增量预训练。我们比较好奇贵司在数据切片时采用的方法，如何保持语义完整的前提下实现合理的切片。感谢！

i4never commented 1 year ago

Pretrain: 所有语料首尾拼接，tokenize后按固定max_seq_length划分成total_token // max_seq_length条数据进行训练。
SFT: SFT阶段均只在answer部份训练
- 方式1:pad 一个对话历史拼成一条数据，根据长度截断或补全至max_seq_length。
- 方式2:group n个对话历史拼成一条不超过max_seq_length的数据，根据长度截断或补全至max_seq_length，同时处理attention mask，不同对话之间相互不会计算attention。

一般来说，有大量语料的情况下，语料切片不会带来明显的负面影响。如果实在担心，可以加大max_seq_length减少断点，或者切片时允许前后语料有一部分首位重叠等方式。

AlphaINF commented 1 year ago

非常感谢！！！

TigerResearch / TigerBot

关于增量预训练的数据切片问题 #138