jingyaogong / minimind

「大模型」3小时完全从0训练26M的小参数GPT,个人显卡即可推理训练!
https://jingyaogong.github.io/minimind
Apache License 2.0
2.7k stars 329 forks source link

这是分词器不行吗,是不是得去换别的 #89

Closed Enter10000 closed 5 days ago

Enter10000 commented 1 week ago

生成的回答:迟疑惋怔��下去?/安迟疑惋???/安迟??????/安迟?????/安迅速走过去眼前面前不知道眼前面前面前台边上边上边上边上边上边上边上边上床上边上边上边上边上的一张口中间图书架着?”安迅速走过身边上的脸颊一只是一个个身上边画着食指尸体型盆…?/安迅速走边上边上边上边上边上边上边上边上边上边上边上边上边上边上边上边上边上边上边上边上边上楼层次再度瘦���道道道体内里面部臀部部部臀部臀部部臀部部部部瞬间图道号称号称号称号称号称号称号称号称号称号称号称号称号称号称号称号称号称号称号称号称号称号称号称号称号称号称号号称号称号称号

还有这种一直重复是怎么回事,已经loss1以下了,可还是欠拟合

jingyaogong commented 6 days ago

有几个问题:prompt是什么?训练数据是什么?怎么训练得来的这个模型?直接预训练?小说数据微调?基于哪种模型微调?学习率,轮次?loss 1以下为什么会得出“欠拟合”结论?测试方法是什么?

根据提问和现象,没有任何定量数据我不得而知,请补齐以上基本信息。

根据目前已知信息: 1.首先标题所谓的 “分词器不行...” 和这条issue内容没有任何任何关系 2.猜测在低质量自定义(小说?)数据集上用和预训练相同的大学习率把模型(本来具备通用能力的)参数全洗没了,变成过拟合低质数据集的完完全全残疾模型,基本回复能力全部丧失。这是过拟合而恰恰非欠拟合...