jingyaogong / minimind

「大模型」3小时完全从0训练26M的小参数GPT,个人显卡即可推理训练!
https://jingyaogong.github.io/minimind
Apache License 2.0
2.7k stars 329 forks source link

1-pretrain中新增的loss mask与现有F.cross_entropy参数不匹配问题 #51

Closed lesterlee89 closed 1 month ago

lesterlee89 commented 1 month ago

1.如题,作者新加的mask处理不足一个max_len的情况下的loss计算问题,但model.py计算loss还是reduce模式,这个loss计算出来已经是一个标量了,后续mask就无效了, 2.是不是可以将F.cross_entropy增加上(size_average=False, reduce=False)这两参数

jingyaogong commented 1 month ago

是的,完全正确,不加, reduction='none' 的话它直接返回一个平均标量损失,已更新bug

谢谢你的细心发现!!!