关于训练过程一个batch内，text文本标签存在较多重复，是否会导致训练不收敛

OFA-Sys / Chinese-CLIP

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.

MIT License

4.21k stars 439 forks source link

Open created-Bi opened 5 months ago

created-Bi commented 5 months ago

具体情况：在finetune阶段想完成图像分类任务，但一个batch内60%的图片的标签一致，那使用对比学习loss作为损失函数是不是就不太合适？如果这种情况，除了降低batch_size，还有其他更好的办法吗？更换loss函数？

created-Bi commented 5 months ago

@yangapku 辛苦大佬有空的话解答一下

Eve-Wang commented 5 months ago

是的我也有这个疑问同一个batch里不应该使用相同的文本标签或者图片不知道作者的代码里是否对有数据集做处理保证同一个batch的标签跟图片都唯一

Eve-Wang commented 5 months ago

@yangapku ，同时想问下作者是否可以提供一下训练ViT-H/14的超参设置，我尝试用ViT-H/14基于Flickr30K-CN数据集优化，但训练了近10个epoch后loss和accuracy都几乎没有提升

squaresmallsong commented 4 weeks ago

是的我也有这个疑问同一个batch里不应该使用相同的文本标签或者图片不知道作者的代码里是否对有数据集做处理保证同一个batch的标签跟图片都唯一

您好，可以解释一下为什么同一个batch里不应该使用相同的文本标签或图片吗？不是很理解，既然是分类任务，分类标签是无限个怎么分类呢？我是小白