Open sherlockma11 opened 4 weeks ago
一直是混合起来训练的
如果是GPU显存不够的话,可以打开deepspeed zero3,或者开启一下accumulation steps
好的,谢谢大佬解惑。
欢迎给我们仓库一个star :)
一直是混合起来训练的
作者您好,请问只在stage3高质量数据上训练时,也需要t2i、llm、mmu三部分吗? 看论文里好像只需要用到t2i和llava在stage3?
需要的,就是用高质量数据 替换其中一个 然后还是需要混合训练
需要的,就是用高质量数据 替换其中一个 然后还是需要混合训练
那请问基于(show-o-512x512-wo-llava-tuning) finetune的时候,如果不用 refinedweb 和 language modeling loss,性能影响会很大吗?
对于understanding benchmark应该影响比较小,实际对纯text建模应该会有影响,只是我们没有评测纯text建模能力
iterables = { "t2i_flow": train_dataloader_t2i, "lm_flow": train_dataloader_lm, "mmu_flow": train_dataloader_mmu, }
因为设备限制,我无法训练,但依照我的理解,似乎代码中会把t2i、llm、mmu三部分的数据集混合起来训练?可能json文件不同时,里面的数据集会变,但无论怎么变,似乎还是混合起来训练。
还是说可能有时候某个数据集是空的?