请问制作长词条有什么好建议？

Huang9495 commented 1 year ago

词条包含近50个字，有什么处理建议，我加了\，。类似的标号
多大数据量finetune才会有效果？
5000对finetune需要多大的迭代数？ @yangapku

DtYXs commented 1 year ago

您好 1.没有太理解您指的“词条”是什么意思，如果是指text文本长度，Chinese CLIP预训练时的context length是52，50个字左右的文本的话tokenize后也应该是大概在52左右这个范围内，模型处理起来应该没什么问题。 2.我们下游跨模态检索实验中数据规模最小的为COCO-CN数据集，大约有18k训练样本，目前暂时没尝试过更小规模的数据微调的表现。如果是针对5000左右的数据量，我认为这个数据量finetune的话应该是足够起到效果的，您可以根据训练时保存的ckpt在验证集上的表现来判断模型效果如何。 3.Epoch数的话需要由设置的batch size和learning rate等超参数，并根据验证集准确率的变化来调整，一般没有一个固定的值。您可以参考COCO-CN finetune script。

Huang9495 commented 1 year ago

@DtYXs @yangapku 你们好，我在构建自己的数据集进行微调发现如下现象，感觉应该使有问题的，但具体不确定是否使微调超参问题还是数据问题，我先前微调过flick也是类似的，resume=clip_cn_vit-b-16.pt，lr=2e-5，bs=32,数据量60000+条图文对，但可能存在一图多描述问题，其余配置和coco的微调脚本一致，请指教一下。

OFA-Sys / Chinese-CLIP

请问制作长词条有什么好建议？ #130