Chengru-Song / Chengru-Song.github.io

MIT License

3 stars 3 forks source link

Open utterances-bot opened 1 month ago

utterances-bot commented 1 month ago

【AI】CLIP - Chengru's Blog

CLIP - OpenAI - 2021 Initiative 在Text领域，pre-train模型可以在不改变任何模型结构，通过prompting的方式泛化到下游任务，Image领域是否能有这样的模型？当前进展 NLP领域，只用webtext做训练，不用labell...

yuu-Wang commented 1 month ago

你好博主，我最近在改clip工作，对text encoder进行了fine tune ，但它原来的也是对image 进行了fine tune，我做了保留，目前缺一个图文的loss，现在就是简单的交叉熵，在我进行了text 之后发现跟原来的acc就相差零点几，基本没变化，想问一下您有什么建议！感谢

Chengru-Song commented 1 month ago

交叉熵你在这里指的的是原文的contrastive loss是吗？
单纯从loss角度出发，可以参考下BLIP在调他们的Q-former时候使用的三个loss，除了contrastive之外还有两个：https://github.com/salesforce/LAVIS/blob/ac8fc98c93c02e2dfb727e24a361c4c309c8dbbc/lavis/models/blip2_models/blip2_qformer.py#L129
想提升性能最好还是从数据角度出发，多组织一些高质量的数据，比改一些模型结构要有效得多。

yuu-Wang commented 1 month ago

1.对的2.好的3.因为我是做ood的接触的数据集都是具有分布偏移的，训练数据和推理数据分布差别很大。这样的咋办呢

Chengru-Song commented 1 month ago

yuu-Wang commented 1 month ago

我要发文章！能不能给我点思路哈哈哈，我就是要解决这个research topic，用clip，但是clipood已经刷的很高了

Chengru-Song commented 1 month ago

可以加个wechat