T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval

ZihaoZheng98 commented 2 years ago

ICCV 21 一句话：在视频-文本匹配任务中，同时考虑了全局特征和局部特征，并且使用了一种高效的方式处理局部特征的对齐。

之前的方法主要是将视频的表示和文本的表示拉近，作者认为这种方式会损失很多细粒度的信息，于是作者考虑了局部信息。作者将视频分为若干个segment,每个segment的表示作为视频的local表示，将所有local表示使用max pooling融合，即得到视频的global表示。同时，对于句子来说，每个词是local表示，句子的表示是global表示。而这种方式会产生大量的local表示，计算上很低效，并且也诶必要。作者认为视频和句子是由一个个topic组成的，因此使用K+1个预训练的向量分别作为K个topic的表示（其中最后一个表示用来过滤空白信息）。在实际计算的时候，相当于将每个局部特征的信息分散到每个topic上。刚开始看的时候，我会怀疑，这个相当于固定了topic的数目，感觉不合理，但是仔细想来，无用的信息其实都会被分散到第k+1个表示上。最后就很容易了，分别针对local和global的表示，计算相似度即可。

可以借鉴的点：topic的使用。在处理长文本的图文数据的对齐上，有价值的词可能就只出现1次，这样就很影响模型效果，并且计算效率很低。这种方式能够很好地强调出文本中最有价值的信息。

论文推荐指数：一般

fmdmm commented 1 year ago

@ZihaoZheng98 大佬，打扰您一下，我看您跑了MKGformer等，都是多模态信息抽取的，想和您请教一下mre方面的问题。如果方便可以加一下联系方式么，您可以发给我我来加，或者我的微信是：hwt1843791

fmdmm commented 1 year ago

十分感谢大佬

ZihaoZheng98 / One-sentence-summarization

T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval #2