Open Huang9495 opened 1 year ago
您好 1.没有太理解您指的“词条”是什么意思,如果是指text文本长度,Chinese CLIP预训练时的context length是52,50个字左右的文本的话tokenize后也应该是大概在52左右这个范围内,模型处理起来应该没什么问题。 2.我们下游跨模态检索实验中数据规模最小的为COCO-CN数据集,大约有18k训练样本,目前暂时没尝试过更小规模的数据微调的表现。如果是针对5000左右的数据量,我认为这个数据量finetune的话应该是足够起到效果的,您可以根据训练时保存的ckpt在验证集上的表现来判断模型效果如何。 3.Epoch数的话需要由设置的batch size和learning rate等超参数,并根据验证集准确率的变化来调整,一般没有一个固定的值。您可以参考COCO-CN finetune script。
@DtYXs @yangapku 你们好,我在构建自己的数据集进行微调发现如下现象,感觉应该使有问题的,但具体不确定是否使微调超参问题还是数据问题,我先前微调过flick也是类似的,resume=clip_cn_vit-b-16.pt,lr=2e-5,bs=32,数据量60000+条图文对,但可能存在一图多描述问题,其余配置和coco的微调脚本一致, 请指教一下。