如何获得图片划分后的每个patch的表征

ChenDelong1999 / RemoteCLIP

🛰️ Official repository of paper "RemoteCLIP: A Vision Language Foundation Model for Remote Sensing" (IEEE TGRS)

https://arxiv.org/abs/2306.11029

Apache License 2.0

277 stars 18 forks source link

Open Zhoumoz opened 5 months ago

Zhoumoz commented 5 months ago

作者你好，RegoinCLIP如何获取encode_image中的的[B,N_patch,768]的结果，其中B为batch_size,N_patch为划分的patch数，谢谢🙏

IRON-TERMINATOR commented 3 months ago

同问~如何获得中间层的特征

IRON-TERMINATOR commented 3 months ago

文章中计算text到image的attention map能提供一下嘛~please