OFA-Sys / Chinese-CLIP

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.
MIT License
4.5k stars 464 forks source link

请问制作长词条有什么好建议? #130

Open Huang9495 opened 1 year ago

Huang9495 commented 1 year ago
  1. 词条包含近50个字,有什么处理建议,我加了\,。类似的标号
  2. 多大数据量finetune才会有效果?
  3. 5000对finetune需要多大的迭代数? @yangapku
DtYXs commented 1 year ago

您好 1.没有太理解您指的“词条”是什么意思,如果是指text文本长度,Chinese CLIP预训练时的context length是52,50个字左右的文本的话tokenize后也应该是大概在52左右这个范围内,模型处理起来应该没什么问题。 2.我们下游跨模态检索实验中数据规模最小的为COCO-CN数据集,大约有18k训练样本,目前暂时没尝试过更小规模的数据微调的表现。如果是针对5000左右的数据量,我认为这个数据量finetune的话应该是足够起到效果的,您可以根据训练时保存的ckpt在验证集上的表现来判断模型效果如何。 3.Epoch数的话需要由设置的batch size和learning rate等超参数,并根据验证集准确率的变化来调整,一般没有一个固定的值。您可以参考COCO-CN finetune script

Huang9495 commented 1 year ago

@DtYXs @yangapku 你们好,我在构建自己的数据集进行微调发现如下现象,感觉应该使有问题的,但具体不确定是否使微调超参问题还是数据问题,我先前微调过flick也是类似的,resume=clip_cn_vit-b-16.pt,lr=2e-5,bs=32,数据量60000+条图文对,但可能存在一图多描述问题,其余配置和coco的微调脚本一致, 请指教一下。 image