Closed oxidegit closed 2 years ago
请问融合视觉特征和文本特征是只使用了transformer的encoder部分吗,TextCaption和visualcaption模型用的Transformer是包含encoder和decoder的吧
单从模型结构上看,上面提及的三个模块都只使用了transformer encoder,主要区别在mask策略上 1)融合视觉特征和文本特征:mask全可见 2)TextCaption和visualcaption模块:mask对传入特征全可见,对需要生成的caption是斜三角;因为在自回归生成中,生成前面的单词时不可以利用未来时刻的单词;这主要是参考UniLM的实现方式,有兴趣的话可以了解下~
请问融合视觉特征和文本特征是只使用了transformer的encoder部分吗,TextCaption和visualcaption模型用的Transformer是包含encoder和decoder的吧