Open awdrgyjilplij opened 6 months ago
其实也没有什么优势 不过我最开始只是想训练wiki和百度而已 然后后面看到loss下降还行就继续训练天工了 第二阶段是纯训练天工数据
以及我看预训练和sft都没用到attention_mask,这是为什么,不会影响模型对pad的理解吗
你不输入attention_mask qwen会自动帮你生成