Shinosuke7110 / read-papers

読んだ論文についてまとめよう
0 stars 0 forks source link

STAIR Captions: Constructing a Large-Scale Japanese Image Caption Dataset #32

Open Shinosuke7110 opened 1 year ago

Shinosuke7110 commented 1 year ago

Authur 筆者

Yuya Yoshikawa, Yutaro Shigeto, Akikazu Takeuchi

Motivation なぜやろうとしたか

日本語のキャプションがついたデータセットが殆どなかったため。 MS-COCOをもとに、164062枚の画像に820310の日本語キャプションを付加したデータセットを作成した。 一枚あたり5文がついてることになる。

Method 手法

セクション4で述べたように,En-generator → MTとJa-generatorの両方で,キャプション生成モデルとしてKarpathy and Fei-Fei(2015)が提案する方法を用いた.両手法とも,Karpathy and Fei-Feiに倣って,LSTMのパラメータのみを学習し,CNNのパラメータは固定とした.CNNには16層のVGGを用い、VGGのパラメータは事前に学習したものを使用した5。LSTMの最適化には、ミニバッチRMSPropを用い、バッチサイズは20とした。

文献(Chen et al., 2015; Karpathy and Fei-Fei, 2015)に従い、BLEU(Papineni et al., 2002)、ROUGE(Lin, 2004)、CIDEr(Vedantam et al., 2015)を評価尺度として使用します。BLEUとROUGEはもともと機械翻訳やテキスト要約の評価のために開発されたものですが、キャプション生成の品質測定に用いられることが多いため、ここではこれらを用いています。

Insight 結果

英語のキャプションから翻訳するより、このデータセットを学習したほうが

Contribution 貢献の要約


Keyword 新しいキーワードなど

Unknown 何が今だ不明か

Reflection 考察

Reference 関連研究

Shinosuke7110 commented 1 year ago

arxiv: https://arxiv.org/abs/1705.00823 Github: https://github.com/STAIR-Lab-CIT/STAIR-captions 公式: https://stair.center/archives/works/stair-captions-demo https://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/P8-7.pdf