baichuan-inc / Baichuan-7B

A large-scale 7B pretraining language model developed by BaiChuan-Inc.
https://huggingface.co/baichuan-inc/baichuan-7B
Apache License 2.0
5.67k stars 506 forks source link

[Question] 关于数据处理的疑问 #124

Open mynewstart opened 1 year ago

mynewstart commented 1 year ago

Required prerequisites

Questions

HI, 现在代码对于数据处理的方式是直接拼接text到max_length,中间用eos。这样操作的话在计算attention的时候,text2其实可以看到text1的内容,如果两个text之间没有啥联系的话会有影响吗?你们在实践中是会mask掉text1的token还是说每个text的文本尽可能的长呢,一个样本只有一个text?

Checklist