jingyaogong / minimind

「大模型」3小时完全从0训练26M的小参数GPT,个人显卡即可推理训练!
https://jingyaogong.github.io/minimind
Apache License 2.0
2.7k stars 329 forks source link

求助,sft数据处理完后是不会使用分词器转码的吗? #80

Closed Enter10000 closed 1 week ago

Enter10000 commented 2 weeks ago

我自己制作了一份数据集,不怎么大,我的目的不是让它会答题,而是希望能模仿我给的q和a的风格,生成类似的答案,哪怕不通顺都行。我按照公开sft数据集的格式制作的,数据处理也正常,可想要训练的时候指定要pretrain文件,我修改文件名后,运行又加载不出来,报错识别错误。 代码我是用git本地部署的,也问过gpt解决了一些问题,但现在就卡在这了,是必须要用pretrain数据集吗

jingyaogong commented 2 weeks ago

@Enter10000 具体错误是什么,肯定是不要求 "必须要用pretrain数据集" 可能是你数据里有一些解析错误的问题,需要看到具体的信息再确定

Enter10000 commented 2 weeks ago

好像是我想错了,我是想直接只用sft数据训练大模型,不是微调的那种,所以一直不行。