Jiangyun Li, Peng Yao, Longteng Guo, and Weicun Zhang. Boosted transformer for image captioning.Applied Sciences, 9(16):3260, 2019. 2
resnet152の7x7パッチの表現により,decoderが画像の異なる部分に注目できる
Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron C. Courville, Ruslan Salakhutdinov, Richard S. Zemel, and Yoshua Bengio. Show, attend and tell: Neural image caption generation with visual attention. In ICML, 2015. 2, 3
使用したフレームワーク
Matt Gardner, Joel Grus, Mark Neumann, Oyvind Tafjord, Pradeep Dasigi, Nelson F. Liu, Matthew Peters, Michael Schmitz, and Luke Zettlemoyer. AllenNLP: A deep seman-tic natural language processing platform. In Proceedings of Workshop for NLP Open Source Software (NLP-OSS), pages 1–6, Melbourne, Australia, July 2018. Associationfor Com-putational Linguistics. 6
本研究では、ニュース記事に埋め込まれた画像のキャプションを生成するエンドツーエンドモデルを提案する。 ニュース画像には2つの重要な課題があります: ニュース画像は実世界の知識、特に名前のついた実体に関する知識に依存しています。 我々は、マルチモーダルなマルチヘッド注意メカニズムを用いて、キャプション内の単語を画像内の顔やオブジェクトに関連付けることで、最初の課題に取り組んでいます。 我々は、バイトペアエンコーディングを用いてキャプションを単語部分のシーケンスとして生成する最先端のトランスフォーマ言語モデルを用いて、2つ目の課題に取り組む。 GoodNewsのデータセットにおいて、我々のモデルは、CIDErスコア(13から54)で4倍の性能を示した。 この性能向上は、言語モデル、単語表現、画像エンベッディング、顔エンベッディング、オブジェクトエンベッディング、ニューラルネットワーク設計の改善のユニークな組み合わせによるものです。 また、GoodNewsよりも70%大きく、記事の質が高く、記事内の画像の位置が文脈上の手がかりとして追加で含まれているNYTimes800kのデータセットを紹介します。