Chengru-Song / Chengru-Song.github.io

MIT License
3 stars 3 forks source link

【AI】CLIP - Chengru's Blog #4

Open utterances-bot opened 1 month ago

utterances-bot commented 1 month ago

【AI】CLIP - Chengru's Blog

CLIP - OpenAI - 2021 Initiative 在Text领域,pre-train模型可以在不改变任何模型结构,通过prompting的方式泛化到下游任务,Image领域是否能有这样的模型? 当前进展 NLP领域,只用webtext做训练,不用labell...

https://chengru-song.github.io/ai/ai_algorithms/2024/02/28/openai-clip.html

yuu-Wang commented 1 month ago

你好博主,我最近在改clip工作,对text encoder进行了fine tune ,但它原来的也是对image 进行了fine tune,我做了保留,目前缺一个图文的loss,现在就是简单的交叉熵,在我进行了text 之后发现跟原来的acc就相差零点几,基本没变化,想问一下您有什么建议!感谢

Chengru-Song commented 1 month ago
  1. 交叉熵你在这里指的的是原文的contrastive loss是吗?
  2. 单纯从loss角度出发,可以参考下BLIP在调他们的Q-former时候使用的三个loss,除了contrastive之外还有两个:https://github.com/salesforce/LAVIS/blob/ac8fc98c93c02e2dfb727e24a361c4c309c8dbbc/lavis/models/blip2_models/blip2_qformer.py#L129
  3. 想提升性能最好还是从数据角度出发,多组织一些高质量的数据,比改一些模型结构要有效得多。
yuu-Wang commented 1 month ago

1.对的2.好的3.因为我是做ood的接触的数据集都是具有分布偏移的,训练数据和推理数据分布差别很大。这样的咋办呢

Chengru-Song commented 1 month ago
  1. 那你这个research topic不就来了么hhh。你是要发文章吗?我觉得这里还是有很多可以讨论的点的
yuu-Wang commented 1 month ago

我要发文章!能不能给我点思路哈哈哈,我就是要解决这个research topic,用clip,但是clipood已经刷的很高了

Chengru-Song commented 1 month ago

image 可以加个wechat