关于完全在自己的数据集上的训练

OFA-Sys / Chinese-CLIP

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.

MIT License

4.33k stars 450 forks source link

关于完全在自己的数据集上的训练 #139

Open Duyz232 opened 1 year ago

Duyz232 commented 1 year ago

您好，我想问一下，能不能完全不需要微调，从头训练自己的数据集呢？要是可以的话我该如何设置训练脚本呢？

Duyz232 commented 1 year ago

YT)HEO A5)N2H_1OAUX)LMB 可以用您这边提供的这几个example吗？要是我选用muge_finetune_vit-b-16_rbt-base.sh的话，哪些参数我需要注释掉？可以用于从头开始训练呢？不需要依靠已经训练好的权重。

DtYXs commented 1 year ago

您好，不知道您指的从头训练是指完全随机初始化文本侧模型和视觉侧模型，还是在英文CLIP和中文Roberta参数的基础上从头训练。如果是前者，您可以尝试在训练脚本去掉--resume参数，这个参数为加载的Chinese-CLIP模型路径。如果是后者，除了去掉--resume的同时，还需要分别设置--clip-weight-path和--bert-weight-path参数来加载英文CLIP和中文Roberta进行初始化。

Xujianzhong commented 1 year ago

您好，请问能方便share一下原始的CLIP视觉和Roberta模型权重文件吗？--clip-weight-path和--bert-weight-path

yangapku commented 1 year ago

@Xujianzhong 您好，没有问题哈：

视觉侧原始CLIP权重（格式已转好），用于在预训练中文CLIP时，初始化视觉侧
文本侧原始Roberta权重（格式已转好），用于在预训练中文CLIP时，初始化文本侧

如果有更多问题，欢迎继续留言。如果觉得Chinese-CLIP代码库对您有帮助，请您为我们点点star⭐️并推荐给身边的朋友们！

Duyz232 commented 1 year ago

您好，我是在官网上找的

------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2023年6月29日(星期四) 下午5:18 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [OFA-Sys/Chinese-CLIP] 关于完全在自己的数据集上的训练 (Issue #139)

您好，请问能方便share一下原始的CLIP视觉和Roberta模型权重文件吗？--clip-weight-path和--bert-weight-path

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

SetonLiang commented 8 months ago

想问一下如果是用clip在自己的训练集重新训练的话，怎么微调模型呢。