Open liuheng0111 opened 2 months ago
模拟xcomposer2的预训练,采用了相同的训练参数,也对vit采用了learning rate decay,训练过程中loss先慢慢下降,但后面升高了,升高之后发现模型训崩了,排除了训练数据问题,learning rate也调小了都不行,不知道是哪里的问题,放开vit训练久了之后就崩了?
模拟xcomposer2的预训练,采用了相同的训练参数,也对vit采用了learning rate decay,训练过程中loss先慢慢下降,但后面升高了,升高之后发现模型训崩了,排除了训练数据问题,learning rate也调小了都不行,不知道是哪里的问题,放开vit训练久了之后就崩了?![image](https://github.com/InternLM/InternLM-XComposer/assets/18352727/259db7bd-2a7e-4a02-ad08-2257f0b66fbf)