osuossu8 / paper-reading

6 stars 1 forks source link

[2020] Understanding Image Captioning Models beyond Visualizing Attention #1

Open osuossu8 opened 4 years ago

osuossu8 commented 4 years ago

論文リンク

https://arxiv.org/abs/2001.01037

公開日(yyyy/mm/dd)

2020/01/04

概要

Attenstion を用いた image captioning に合わせて開発した

variants of layer-wise relevance backpropagation (LRP) and gradient backpropagation

を提案。 キャプションの各単語について、pixel-wise での説明性と言語学的な説明性を同時に得られた。 LRP の attention heatmap の性能を Grad-CAM, Guided Grad-CAM を比較した。

attention よりも 高い精度で物体の位置が相関した。 画像を与えられていない対象の単語を識別できる。

著者実装

osuossu8 commented 4 years ago

使用 dataset

Flickr30K

kaggle で利用できる https://www.kaggle.com/hsankesara/flickr-image-dataset

MSCOCO2017

本家 http://cocodataset.org/#home

kaggle でも 2014 年だが利用できる https://www.kaggle.com/aftaab/mscoco