ZihaoZheng98 / One-sentence-summarization

One sentence summarization for what I have read
1 stars 0 forks source link

T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval #2

Open ZihaoZheng98 opened 2 years ago

ZihaoZheng98 commented 2 years ago

ICCV 21 一句话:在视频-文本匹配任务中,同时考虑了全局特征和局部特征,并且使用了一种高效的方式处理局部特征的对齐。

之前的方法主要是将视频的表示和文本的表示拉近,作者认为这种方式会损失很多细粒度的信息,于是作者考虑了局部信息。作者将视频分为若干个segment,每个segment的表示作为视频的local表示,将所有local表示使用max pooling融合,即得到视频的global表示。同时,对于句子来说,每个词是local表示,句子的表示是global表示。 而这种方式会产生大量的local表示,计算上很低效,并且也诶必要。作者认为视频和句子是由一个个topic组成的,因此使用K+1个预训练的向量分别作为K个topic的表示(其中最后一个表示用来过滤空白信息)。在实际计算的时候,相当于将每个局部特征的信息分散到每个topic上。刚开始看的时候,我会怀疑,这个相当于固定了topic的数目,感觉不合理,但是仔细想来,无用的信息其实都会被分散到第k+1个表示上。最后就很容易了,分别针对local和global的表示,计算相似度即可。

可以借鉴的点:topic的使用。在处理长文本的图文数据的对齐上,有价值的词可能就只出现1次,这样就很影响模型效果,并且计算效率很低。这种方式能够很好地强调出文本中最有价值的信息。

论文推荐指数:一般 image

fmdmm commented 1 year ago

@ZihaoZheng98 大佬,打扰您一下,我看您跑了MKGformer等,都是多模态信息抽取的,想和您请教一下mre方面的问题。如果方便可以加一下联系方式么,您可以发给我我来加,或者我的微信是:hwt1843791

fmdmm commented 1 year ago

十分感谢大佬