关于img_encoder和txt_encoder

lerogo / aaai24_itr_cusa

Source code of our AAAI 2024 paper "Cross-Modal and Uni-Modal Soft-Label Alignment for Image-Text Retrieval"

29 stars 3 forks source link

Open zxt6174 opened 3 months ago

zxt6174 commented 3 months ago

作者你好，代码我没看太明白，比如，如果我想更换img_enc和txt_enc部分，教师模型依然使用clip预训练模型，分别对应项目里的哪些文件。看代码有些没理解，你似乎只使用了clip。烦请指教。

lerogo commented 3 months ago

教师模型用的是unicom和mpnet，你可以看看文章或者看看readme的介绍。如果要应用在其他方法上，你在其他方法上加上外部模型就可以了