jiahe7ay / MINI_LLM

This is a repository used by individuals to experiment and reproduce the pre-training process of LLM.
348 stars 53 forks source link

预训练数据的细节问题 #19

Open awdrgyjilplij opened 6 months ago

awdrgyjilplij commented 6 months ago
  1. 先训练wiki和baidu有什么优势吗,把高质量数据放前面吗
  2. 接着上次预训练的权重,继续预训练。这时候是纯训练天工数据,还是天工+wiki+baidu 感谢🙏
jiahe7ay commented 6 months ago

其实也没有什么优势 不过我最开始只是想训练wiki和百度而已 然后后面看到loss下降还行就继续训练天工了 第二阶段是纯训练天工数据

awdrgyjilplij commented 6 months ago

以及我看预训练和sft都没用到attention_mask,这是为什么,不会影响模型对pad的理解吗

jiahe7ay commented 6 months ago

你不输入attention_mask qwen会自动帮你生成