用自己的数据训练MOE-LLAVA，pretrain阶段,loss下降的非常快

PKU-YuanGroup / MoE-LLaVA

Mixture-of-Experts for Large Vision-Language Models

https://arxiv.org/abs/2401.15947

Apache License 2.0

1.97k stars 125 forks source link

Closed awzhgw closed 9 months ago

awzhgw commented 9 months ago

我用字节的数据来训练moe llava，我的数据量比较大，大概是3kw条记录 + moe-llava的数据。

总共大约有500000 个step

在pretrain阶段，第0~3000 step ， loss下降到了1.4

从3000个step 到第7000个step， loss下降到1.1

我还需要等待吗？现在只跑了大约2% 的step进度。。。还要等待吗？是否要等loss下降到0.3左右？

在你的pretrain阶段，loss下降到多少后，你就停止了？

LinB203 commented 9 months ago

我认为应该足够了，用1M数据就能够在pretrained阶段对齐比较好。 [En] I think 1M dataset is enough for pretrained stage.

awzhgw commented 9 months ago

thanks very much

我认为应该足够了，用1M数据就能够在pretrained阶段对齐比较好。 [En] I think 1M dataset is enough for pretrained stage.

1M的数据，大约是100w 个记录。。。我的batch_size设置的是32， 8个卡同时训练。。

那么大约需要5000个step 嘛？？？我算的正确吗？

LinB203 commented 9 months ago

step = data_size / total_batch_size, in your case is 1,000,000 / 8 / 32 =3906.

awzhgw commented 9 months ago

step = data_size / total_batch_size, in your case is 1,000,000 / 8 / 32 =3906.

非常感谢哈。