能否使用clip中的图文描述的数据训练呢？

lloongx / DIKI

[ECCV 2024] Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models

32 stars 0 forks source link

感谢你对我们工作的关注

请问这种数据你们有尝试过吗

我们这个工作是针对 CLIP 的分类任务，最后得到的是分类 logits，采用 cross entropy loss 而图文描述的数据最终得到的是一对图文的 similarity，采用 contrast learning 两者差异较大，我们没有考虑过这个情况

本文中对attention和训练策略的修改是否能通用呢

我们提出的是一个 knowledge injection 策略，原则上是通用的，更改目标函数正常训练应该就可以。不过参数需要针对问题调整。

lloongx / DIKI