short summary

魅力的なキャプションを異なるスタイル（romantic, humorous）で生成するモデル（StyleNet）の提案． StyleNetでは，モノリンガルのスタイルを持ったcorpusと通常の画像/動画・キャプションペアを用いて，スタイルを持ったキャプションを生成する．具体的には，factored LSTM modelを新しく導入し，マルチタスク学習によって，文からfactual, style factorを取り出す．要は，スタイルを持ったキャプションと画像のセットを用いずに，style factorをテキストのみから抽出し，それを利用しスタイルを持ったキャプションを生成できる．

factored LSTM

factored LSTMでは，普通のLSTMの入力に作用させるWxを以下のように因子分解する． Imgur hに作用させる重み行列は，そのまま．すなわち，キャプションの中身やスタイルに直接影響を与える部分Wxは変形し，ロングスパンの構文的な依存関係を主にとらえる部分Whは変形しない．よって，factored LSTMは以下のように表される． Imgur

上記のU, V, Wは，テキストの一般的な事実説明をモデル化しているとして，異なるスタイル間でシェアする．そして，Sをstyle factorを抽出しているものとして，変更する．

how to train

Imgur

まずは，一般的なキャプションを画像から生成するように学習 pretrained CNNで画像をencodeし，それをもとにLSTMを初期化
言語モデルとして学習させる Sだけ変えてスタイルごとに学習

experiment

一般のキャプション生成の学習

dataはFlickrStyle10K．
ResNet152（ImageNet pretrained）のlast pooling layerからの2048次元のベクトルを画像の特徴ベクトルとする．
それをlinear transform matrix Aで300次元にして，LSTMへの入力とする．
word vocabularyはfactual captionで2回以上出現，stylized captionのすべてを含む．
すべての単語のone hotをembeddingで300次元にする．
detail
caption, language model 両方ともAdamを使用．
batch sizeはcaption : 64, language: 96
learning rateはcaption : 0.0002, language : 0.0005
LSTMの隠れ層の次元 : 512, factored matrixの次元 : 512
パラメータはすべて一様分布で初期化
マルチタスク学習のために，1epochごとに交互に学習
- 最初はimage captioning task，次にstylized language modeling task
- romanticとhumorousを組み合わせて学習しても向上しない
30epochで収束
testのためのbeam searchはサイズ5

slideshare

https://www.slideshare.net/DeepLearningJP2016/dl-hacks-stylenet-generating-attractive-visual-captions-with-styles

URL

https://www.microsoft.com/en-us/research/wp-content/uploads/2017/06/Generating-Attractive-Visual-Captions-with-Styles.pdf

author

Chuang Gan1 Zhe Gan2 Xiaodong He3 Jianfeng Gao 3 Li Deng3 1 IIIS, Tsinghua University, China 2 Duke University, USA 3 Microsoft Research Redmond, USA

kacky24 / papers

StyleNet: Generating Attractive Visual Captions with Styles #6