baichuan-inc / Baichuan-7B

A large-scale 7B pretraining language model developed by BaiChuan-Inc.
https://huggingface.co/baichuan-inc/baichuan-7B
Apache License 2.0
5.67k stars 506 forks source link

[Question] 当继续预训练是,loss一直是2.2几的状态,请问作者预训练阶段也是如此吗? #106

Open chenglu66 opened 1 year ago

chenglu66 commented 1 year ago

Required prerequisites

Questions

我自己继续预训练,采用loara方法,训练参数大约在1千万,120w条数据,训练3轮,发现loss降低很少,始终维持在2.2几的样子,想问下这个正常吗?因为我之前没有NLP的经验。

Checklist

parkLGW commented 1 year ago

请问您找到原因了吗

yangjianxin1 commented 1 year ago

遇到的相同的问题,loss在2.3左右震荡