e4exp / paper_manager_abstract

0 stars 0 forks source link

Transform and Tell: Entity-Aware News Image Captioning #262

Closed e4exp closed 3 years ago

e4exp commented 3 years ago

本研究では、ニュース記事に埋め込まれた画像のキャプションを生成するエンドツーエンドモデルを提案する。 ニュース画像には2つの重要な課題があります: ニュース画像は実世界の知識、特に名前のついた実体に関する知識に依存しています。 我々は、マルチモーダルなマルチヘッド注意メカニズムを用いて、キャプション内の単語を画像内の顔やオブジェクトに関連付けることで、最初の課題に取り組んでいます。 我々は、バイトペアエンコーディングを用いてキャプションを単語部分のシーケンスとして生成する最先端のトランスフォーマ言語モデルを用いて、2つ目の課題に取り組む。 GoodNewsのデータセットにおいて、我々のモデルは、CIDErスコア(13から54)で4倍の性能を示した。 この性能向上は、言語モデル、単語表現、画像エンベッディング、顔エンベッディング、オブジェクトエンベッディング、ニューラルネットワーク設計の改善のユニークな組み合わせによるものです。 また、GoodNewsよりも70%大きく、記事の質が高く、記事内の画像の位置が文脈上の手がかりとして追加で含まれているNYTimes800kのデータセットを紹介します。

e4exp commented 3 years ago

Transform and Tell: Entity-Aware News Image Captioning

スクリーンショット 2021-02-15 15 07 53

まとめ