JeremyXSC / DMF

MIT License
6 stars 2 forks source link

请问这个项目没有提供 模态融合(图像、文本)的代码吗? #3

Open lilslsls opened 1 year ago

lilslsls commented 1 year ago

请问这个项目没有提供 模态融合(图像、文本)的代码,只是提供了微调的代码吗?在代码中没有发现处理文本的网络以及加载文本数据。

JeremyXSC commented 1 year ago

你好,感谢你对我们工作的关注。实际上,用来处理文本的网络跟处理图像的网络是一样的,它们都是在同一个维度的特征空间里面进行多模态特征融合处理。值得注意的是:视觉&文本特征在经过Transformer处理后就已经在同一个特征空间了。 Thanks for your interests to our work. In essence, the code for processing the texts is same as the code to process the image, which are in the same feature space for deep multimodal feature fusion. Note that the image feature & text feature are in the same feature space when they are processed by the Transformer.