OFA-Sys / Chinese-CLIP

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.
MIT License
4.21k stars 439 forks source link

关于训练过程一个batch内,text文本标签存在较多重复,是否会导致训练不收敛 #266

Open created-Bi opened 5 months ago

created-Bi commented 5 months ago

具体情况: 在finetune阶段想完成图像分类任务,但一个batch内60%的图片的标签一致,那使用对比学习loss作为损失函数是不是就不太合适? 如果这种情况,除了降低batch_size,还有其他更好的办法吗?更换loss函数?

created-Bi commented 5 months ago

@yangapku 辛苦大佬有空的话解答一下

Eve-Wang commented 5 months ago

是的 我也有这个疑问 同一个batch里不应该使用相同的文本标签或者图片 不知道作者的代码里是否对有数据集做处理保证同一个batch的标签跟图片都唯一

Eve-Wang commented 5 months ago

@yangapku ,同时想问下作者是否可以提供一下训练ViT-H/14的超参设置,我尝试用ViT-H/14基于Flickr30K-CN数据集优化,但训练了近10个epoch后loss和accuracy都几乎没有提升

squaresmallsong commented 4 weeks ago

是的 我也有这个疑问 同一个batch里不应该使用相同的文本标签或者图片 不知道作者的代码里是否对有数据集做处理保证同一个batch的标签跟图片都唯一

您好,可以解释一下为什么同一个batch里不应该使用相同的文本标签或图片吗?不是很理解,既然是分类任务,分类标签是无限个怎么分类呢?我是小白