Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning

Authur 筆者

Motivation なぜやろうとしたか

Method 手法

ネットから画像とキャプション収集　330万のペアから構成される。

MS-COCO: 120k 5 annotated caption (Training: 82k, Validation: 40k) Conceptual Captions: 3.3m 1 caption (Training: 3.3M, Validation: 28K, Test: 22.5K)

データセット作成に使用するソフトウェアの開発、画像のキャプションのペアを抽出、フィルタリング、変換を行うものである。アダルトなどの有害要素を含むペア、齟齬の大きいペア（ハイコンテクストすぎるもの）、などを除外する。

Insight 結果

既存のデータセットMS-COCOよりも優れたキャプション生成能力を示した。 COCOよりも生成されたキャプションよりも語彙が豊富で詳細に場面を説明している。また、COCOはないものを説明している。(論文中でhallucinationといってるとこ) cartoonなイラストはCOCOは読み込めないそこで勝っている。

Contribution 貢献の要約

また、多くの画像キャプションモデルの定量的評価を提示し、画像特徴抽出のためのInception-ResNetv2（Szegedy et al.、2016）とシーケンスモデリングのためのTransformer（Vaswani et al.、2017）に基づくモデルアーキテクチャが、Conceptual Captionsデータセットで学習した場合に最高のパフォーマンスを達成することを示す。()

モデリングカテゴリーへの貢献として、我々はいくつかの画像キャプションモデルを評価する。 Huangら（2016）の知見に基づき、画像特徴抽出にはInception-ResNet-v2（Szegedyら、2016）を使用し、残差接続と計算効率の高いInceptionユニットによる最適化の利点を与える。キャプション生成には、RNNベース（Hochreiter and Schmidhuber, 1997）とTransformerベース（Vaswani et al, 2017）の両方のモデルを使用する。我々の結果は、Transformerベースのモデルがより高い出力精度を達成することを示している。Vaswani et al (2017)の、（RNNと比較して）トレーニング＆サービングに必要なパラメータ数とFLOPsの削減に関する報告と組み合わせることで、T2T8x8（セクション4）のようなモデルは、画像キャプションのパフォーマンスを押し上げ、さらなる注目に値する。

Shinosuke7110 / read-papers