PKU-YuanGroup / MoE-LLaVA

Mixture-of-Experts for Large Vision-Language Models
https://arxiv.org/abs/2401.15947
Apache License 2.0
1.97k stars 125 forks source link

用自己的数据训练MOE-LLAVA,pretrain阶段,loss下降的非常快 #28

Closed awzhgw closed 9 months ago

awzhgw commented 9 months ago

我用字节的数据来训练moe llava, 我的数据量比较大,大概是3kw条记录 + moe-llava的数据。

总共大约有500000 个step

在pretrain阶段, 第0~3000 step , loss下降到了1.4

从3000个step 到第7000个step, loss下降到1.1

我还需要等待吗? 现在只跑了大约2% 的step进度。。。 还要等待吗? 是否要等loss下降到0.3左右?

在你的pretrain阶段,loss下降到多少后,你就停止了?

LinB203 commented 9 months ago

我认为应该足够了,用1M数据就能够在pretrained阶段对齐比较好。 [En] I think 1M dataset is enough for pretrained stage.

awzhgw commented 9 months ago

thanks very much

我认为应该足够了,用1M数据就能够在pretrained阶段对齐比较好。 [En] I think 1M dataset is enough for pretrained stage.

1M的数据,大约是100w 个记录。。。 我的batch_size设置的是32, 8个卡同时训练。。

那么大约需要5000个step 嘛???我算的正确吗?

LinB203 commented 9 months ago

step = data_size / total_batch_size, in your case is 1,000,000 / 8 / 32 =3906.

awzhgw commented 9 months ago

step = data_size / total_batch_size, in your case is 1,000,000 / 8 / 32 =3906.

非常感谢哈。