代码中会把t2i、llm、mmu三部分的数据集混合起来训练

showlab / Show-o

Repository for Show-o, One Single Transformer to Unify Multimodal Understanding and Generation.

https://arxiv.org/abs/2408.12528

Apache License 2.0

1.04k stars 44 forks source link

Open sherlockma11 opened 4 weeks ago

sherlockma11 commented 4 weeks ago

iterables = { "t2i_flow": train_dataloader_t2i, "lm_flow": train_dataloader_lm, "mmu_flow": train_dataloader_mmu, }

因为设备限制，我无法训练，但依照我的理解，似乎代码中会把t2i、llm、mmu三部分的数据集混合起来训练？可能json文件不同时，里面的数据集会变，但无论怎么变，似乎还是混合起来训练。

还是说可能有时候某个数据集是空的？

Sierkinhane commented 4 weeks ago

一直是混合起来训练的

Sierkinhane commented 4 weeks ago

如果是GPU显存不够的话，可以打开deepspeed zero3，或者开启一下accumulation steps

sherlockma11 commented 4 weeks ago

好的，谢谢大佬解惑。

Sierkinhane commented 4 weeks ago

欢迎给我们仓库一个star :)

jinglinglingling commented 3 weeks ago

一直是混合起来训练的

作者您好，请问只在stage3高质量数据上训练时，也需要t2i、llm、mmu三部分吗？看论文里好像只需要用到t2i和llava在stage3?

Sierkinhane commented 3 weeks ago

需要的，就是用高质量数据替换其中一个然后还是需要混合训练

jinglinglingling commented 3 weeks ago

需要的，就是用高质量数据替换其中一个然后还是需要混合训练

那请问基于(show-o-512x512-wo-llava-tuning) finetune的时候，如果不用 refinedweb 和 language modeling loss，性能影响会很大吗？

Sierkinhane commented 3 weeks ago

对于understanding benchmark应该影响比较小，实际对纯text建模应该会有影响，只是我们没有评测纯text建模能力