Closed AlphaINF closed 1 year ago
max_seq_length
划分成total_token // max_seq_length
条数据进行训练。max_seq_length
。max_seq_length
的数据,根据长度截断或补全至max_seq_length
,同时处理attention mask
,不同对话之间相互不会计算attention。一般来说,有大量语料的情况下,语料切片不会带来明显的负面影响。如果实在担心,可以加大max_seq_length
减少断点,或者切片时允许前后语料有一部分首位重叠等方式。
非常感谢!!!
从贵司发布首个模型开始,我就一直在关注贵司的研发。 从我们试用贵司70B模型执行复杂推理prompt的情况来看,贵司70B模型的整体性能超过Claude2,大幅超越GPT-3.5,在推理方面基本是中文模型中最强的存在。 我们团队需要在某一垂直领域上对模型进行增量预训练,单篇语料的长度均在万字以上,需要切片才能进行增量预训练。 我们比较好奇贵司在数据切片时采用的方法,如何保持语义完整的前提下实现合理的切片。 感谢!