lloongx / DIKI

[ECCV 2024] Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models
32 stars 0 forks source link

能否使用clip中的图文描述的数据训练呢? #1

Closed XA-hyy closed 2 months ago

XA-hyy commented 3 months ago

作者你好,我注意到当前demo使用的数据都是固定一些类别的分类数据,能否使用clip的图文描述的数据去训练呢,我看到PromptProcessor类中预定义了固定类别的all_embedding,如果用图文描述的数据这个类别就特别多不好预定义了。请问这种数据你们有尝试过吗,本文中对attention和训练策略的修改是否能通用呢?能否给一些建议,谢谢!

lloongx commented 2 months ago

感谢你对我们工作的关注

请问这种数据你们有尝试过吗

我们这个工作是针对 CLIP 的分类任务,最后得到的是分类 logits,采用 cross entropy loss 而图文描述的数据最终得到的是一对图文的 similarity,采用 contrast learning 两者差异较大,我们没有考虑过这个情况

本文中对attention和训练策略的修改是否能通用呢

我们提出的是一个 knowledge injection 策略,原则上是通用的,更改目标函数正常训练应该就可以。不过参数需要针对问题调整。