关于transformer - Githubissues

guanghuixu / AnchorCaptioner

Other

32 stars 10 forks source link

关于transformer #9

Closed oxidegit closed 2 years ago

oxidegit commented 2 years ago

请问融合视觉特征和文本特征是只使用了transformer的encoder部分吗，TextCaption和visualcaption模型用的Transformer是包含encoder和decoder的吧

guanghuixu commented 2 years ago

单从模型结构上看，上面提及的三个模块都只使用了transformer encoder，主要区别在mask策略上 1）融合视觉特征和文本特征：mask全可见 2）TextCaption和visualcaption模块：mask对传入特征全可见，对需要生成的caption是斜三角；因为在自回归生成中，生成前面的单词时不可以利用未来时刻的单词；这主要是参考UniLM的实现方式，有兴趣的话可以了解下~