セクション4で述べたように,En-generator → MTとJa-generatorの両方で,キャプション生成モデルとしてKarpathy and Fei-Fei(2015)が提案する方法を用いた.両手法とも,Karpathy and Fei-Feiに倣って,LSTMのパラメータのみを学習し,CNNのパラメータは固定とした.CNNには16層のVGGを用い、VGGのパラメータは事前に学習したものを使用した5。LSTMの最適化には、ミニバッチRMSPropを用い、バッチサイズは20とした。
文献(Chen et al., 2015; Karpathy and Fei-Fei, 2015)に従い、BLEU(Papineni et al., 2002)、ROUGE(Lin, 2004)、CIDEr(Vedantam et al., 2015)を評価尺度として使用します。BLEUとROUGEはもともと機械翻訳やテキスト要約の評価のために開発されたものですが、キャプション生成の品質測定に用いられることが多いため、ここではこれらを用いています。
Authur 筆者
Yuya Yoshikawa, Yutaro Shigeto, Akikazu Takeuchi
Motivation なぜやろうとしたか
日本語のキャプションがついたデータセットが殆どなかったため。 MS-COCOをもとに、164062枚の画像に820310の日本語キャプションを付加したデータセットを作成した。 一枚あたり5文がついてることになる。
Method 手法
セクション4で述べたように,En-generator → MTとJa-generatorの両方で,キャプション生成モデルとしてKarpathy and Fei-Fei(2015)が提案する方法を用いた.両手法とも,Karpathy and Fei-Feiに倣って,LSTMのパラメータのみを学習し,CNNのパラメータは固定とした.CNNには16層のVGGを用い、VGGのパラメータは事前に学習したものを使用した5。LSTMの最適化には、ミニバッチRMSPropを用い、バッチサイズは20とした。
文献(Chen et al., 2015; Karpathy and Fei-Fei, 2015)に従い、BLEU(Papineni et al., 2002)、ROUGE(Lin, 2004)、CIDEr(Vedantam et al., 2015)を評価尺度として使用します。BLEUとROUGEはもともと機械翻訳やテキスト要約の評価のために開発されたものですが、キャプション生成の品質測定に用いられることが多いため、ここではこれらを用いています。
Insight 結果
英語のキャプションから翻訳するより、このデータセットを学習したほうが
Contribution 貢献の要約
Keyword 新しいキーワードなど
Unknown 何が今だ不明か
Reflection 考察
Reference 関連研究