STAIR Captions: Constructing a Large-Scale Japanese Image Caption Dataset

Authur 筆者

Yuya Yoshikawa, Yutaro Shigeto, Akikazu Takeuchi

Motivation なぜやろうとしたか

日本語のキャプションがついたデータセットが殆どなかったため。 MS-COCOをもとに、164062枚の画像に820310の日本語キャプションを付加したデータセットを作成した。一枚あたり5文がついてることになる。

Method 手法

セクション4で述べたように，En-generator → MTとJa-generatorの両方で，キャプション生成モデルとしてKarpathy and Fei-Fei（2015）が提案する方法を用いた．両手法とも，Karpathy and Fei-Feiに倣って，LSTMのパラメータのみを学習し，CNNのパラメータは固定とした．CNNには16層のVGGを用い、VGGのパラメータは事前に学習したものを使用した5。LSTMの最適化には、ミニバッチRMSPropを用い、バッチサイズは20とした。

文献（Chen et al., 2015; Karpathy and Fei-Fei, 2015）に従い、BLEU（Papineni et al., 2002）、ROUGE（Lin, 2004）、CIDEr（Vedantam et al., 2015）を評価尺度として使用します。BLEUとROUGEはもともと機械翻訳やテキスト要約の評価のために開発されたものですが、キャプション生成の品質測定に用いられることが多いため、ここではこれらを用いています。

Insight 結果

英語のキャプションから翻訳するより、このデータセットを学習したほうが

Shinosuke7110 / read-papers