showlab / Show-o

Repository for Show-o, One Single Transformer to Unify Multimodal Understanding and Generation.
https://arxiv.org/abs/2408.12528
Apache License 2.0
1.04k stars 44 forks source link

代码中会把t2i、llm、mmu三部分的数据集混合起来训练 #48

Open sherlockma11 opened 4 weeks ago

sherlockma11 commented 4 weeks ago

iterables = { "t2i_flow": train_dataloader_t2i, "lm_flow": train_dataloader_lm, "mmu_flow": train_dataloader_mmu, }

因为设备限制,我无法训练,但依照我的理解,似乎代码中会把t2i、llm、mmu三部分的数据集混合起来训练?可能json文件不同时,里面的数据集会变,但无论怎么变,似乎还是混合起来训练。

还是说可能有时候某个数据集是空的?

Sierkinhane commented 4 weeks ago

一直是混合起来训练的

Sierkinhane commented 4 weeks ago

如果是GPU显存不够的话,可以打开deepspeed zero3,或者开启一下accumulation steps

sherlockma11 commented 4 weeks ago

好的,谢谢大佬解惑。

Sierkinhane commented 4 weeks ago

欢迎给我们仓库一个star :)

jinglinglingling commented 3 weeks ago

一直是混合起来训练的

作者您好,请问只在stage3高质量数据上训练时,也需要t2i、llm、mmu三部分吗? 看论文里好像只需要用到t2i和llava在stage3?

Sierkinhane commented 3 weeks ago

需要的,就是用高质量数据 替换其中一个 然后还是需要混合训练

jinglinglingling commented 3 weeks ago

需要的,就是用高质量数据 替换其中一个 然后还是需要混合训练

那请问基于(show-o-512x512-wo-llava-tuning) finetune的时候,如果不用 refinedweb 和 language modeling loss,性能影响会很大吗?

Sierkinhane commented 3 weeks ago

对于understanding benchmark应该影响比较小,实际对纯text建模应该会有影响,只是我们没有评测纯text建模能力