DLLXW / baby-llama2-chinese

用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库;24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.
MIT License
2.47k stars 305 forks source link

预训练阶段,每条训练样本混杂着不同的句子(不同句子用<eos>隔开) #74

Open Itochiee opened 4 months ago

Itochiee commented 4 months ago

请教一下大家,预训练阶段,每条训练样本混杂着不同的句子(不同句子用隔开),这样做是否会造成混杂的不相关的句子在预训练时互相受影响?为什么不是每个句子就是一条训练样本呢(如果句子超长,再截断成多个子句)?