Qrange-group / SUR-adapter

ACM MM'23 (oral), SUR-adapter for pre-trained diffusion models can acquire the powerful semantic understanding and reasoning capabilities from large language models to build a high-quality textual semantic representation for text-to-image generation.
MIT License
111 stars 2 forks source link

关于蒸馏中LLM模型的语义特征 #5

Open wddwzwhhxx opened 1 year ago

wddwzwhhxx commented 1 year ago

首先感谢你们的文章!看了很有启发性。 我有一点困惑,对于文中提到的取llama模型的语义特征,并且你们提到了下面这两行: for layer in self.layers: h = layer(h, start_pos, freqs_cis, mask) 我使用了你们的例子输入”a colorful animal with big eyes on a blue background,“但当我打印第40层layer的最终结果shape时,显示h的shape是【1, 12, 5120】,显然每个word都拥有一个[5120]长度的token,但你们的sur_data_small里面却是一个【5120】的token,这是怎么回事呢?我应该取LLM哪个位置的语义特征呢?

期待你们的回复

zhongshsh commented 1 year ago

感谢你的关注!我们在 论文Knowledge from LLM 这部分内容对于语义特征的处理进行了描述: image

我们在 Knowledge from LLM 中说明了我们在 token 维度取了均值,以使得 token 对齐。也即您只需要通过 h.mean(1) 就可以获取 SUR-adapter 蒸馏过程中使用的语义表征。