Open miaomiaocoder opened 11 months ago
尊敬的作者,很高兴您做出了一个非常棒的工作。我阅读了您这篇论文,并且初步阅读了这篇代码(很抱歉我个人没法正确地运行起来本项目代码,阅读源码的能力稍弱)。故想请教以下这些问题?
论文模型的架构是,基于多模态变换器 UNITER 和 GRU,UNITER作为编码器,GRU作为解码器,编码器-解码器架构上改进的。改进的是多模态变换器 UNITER的transformer模块,在transformer模块增加了预过滤模块、词级补全模块和短语级补全模块。我理解下来是这样么?
在UNITER这篇论文中,我看到他们的图像嵌入是使用Faster R-CNN2提取的视觉特征,而本篇论文是使用的BUTD工具来做视觉特征提取。文本嵌入式uniter和本文都使用了BERT。这里的理解不知道是否正确?
因为没有办法运行起来代码,我想学习一下,编码器和解码器之间是怎么处理的,有点疑惑是哪部分代码处理了UNITER得到的向量到GRU解码器生成文本,可以帮忙截图指出一下位置么。
很感谢您做出了一个非常棒的工作!可以指导我目前学习遇到的疑问么,谢谢,非常感激!
对于第三点,我理解的是将uniter编码得到的向量作为隐藏的编码器特征与输入id一起传递给GRU解码器。 我是参考下面这个github的链接来理解的。因为它这里提到UNITER和OSCAR等单流模型作为编码器。 https://github.com/darthgera123/Multimodal-Summarization
十分抱歉,前段时间有些忙,没有及时一一回复你的问题。
尊敬的作者,很高兴您做出了一个非常棒的工作。我阅读了您这篇论文,并且初步阅读了这篇代码(很抱歉我个人没法正确地运行起来本项目代码,阅读源码的能力稍弱)。故想请教以下这些问题?
论文模型的架构是,基于多模态变换器 UNITER 和 GRU,UNITER作为编码器,GRU作为解码器,编码器-解码器架构上改进的。改进的是多模态变换器 UNITER的transformer模块,在transformer模块增加了预过滤模块、词级补全模块和短语级补全模块。我理解下来是这样么?
在UNITER这篇论文中,我看到他们的图像嵌入是使用Faster R-CNN2提取的视觉特征,而本篇论文是使用的BUTD工具来做视觉特征提取。文本嵌入式uniter和本文都使用了BERT。这里的理解不知道是否正确?
因为没有办法运行起来代码,我想学习一下,编码器和解码器之间是怎么处理的,有点疑惑是哪部分代码处理了UNITER得到的向量到GRU解码器生成文本,可以帮忙截图指出一下位置么。
很感谢您做出了一个非常棒的工作!可以指导我目前学习遇到的疑问么,谢谢,非常感激!