Closed awzhgw closed 9 months ago
我认为应该足够了,用1M数据就能够在pretrained阶段对齐比较好。 [En] I think 1M dataset is enough for pretrained stage.
thanks very much
我认为应该足够了,用1M数据就能够在pretrained阶段对齐比较好。 [En] I think 1M dataset is enough for pretrained stage.
1M的数据,大约是100w 个记录。。。 我的batch_size设置的是32, 8个卡同时训练。。
那么大约需要5000个step 嘛???我算的正确吗?
step = data_size / total_batch_size, in your case is 1,000,000 / 8 / 32 =3906.
step = data_size / total_batch_size, in your case is 1,000,000 / 8 / 32 =3906.
非常感谢哈。
我用字节的数据来训练moe llava, 我的数据量比较大,大概是3kw条记录 + moe-llava的数据。
总共大约有500000 个step
在pretrain阶段, 第0~3000 step , loss下降到了1.4
从3000个step 到第7000个step, loss下降到1.1
我还需要等待吗? 现在只跑了大约2% 的step进度。。。 还要等待吗? 是否要等loss下降到0.3左右?
在你的pretrain阶段,loss下降到多少后,你就停止了?