kacky24 / papers

my publications and short summaries of papers I have read
3 stars 1 forks source link

StyleNet: Generating Attractive Visual Captions with Styles #6

Closed kacky24 closed 5 years ago

kacky24 commented 7 years ago

short summary

魅力的なキャプションを異なるスタイル(romantic, humorous)で生成するモデル(StyleNet)の提案. StyleNetでは,モノリンガルのスタイルを持ったcorpusと通常の画像/動画・キャプションペアを用いて,スタイルを持ったキャプションを生成する. 具体的には,factored LSTM modelを新しく導入し,マルチタスク学習によって,文からfactual, style factorを取り出す. 要は,スタイルを持ったキャプションと画像のセットを用いずに,style factorをテキストのみから抽出し,それを利用しスタイルを持ったキャプションを生成できる.

factored LSTM

factored LSTMでは,普通のLSTMの入力 に作用させるWxを以下のように因子分解する. Imgur hに作用させる重み行列は,そのまま. すなわち,キャプションの中身やスタイルに直接影響を与える部分Wxは変形し,ロングスパンの構文的な依存関係を主にとらえる部分Whは変形しない. よって,factored LSTMは以下のように表される. Imgur

上記のU, V, Wは,テキストの一般的な事実説明をモデル化しているとして,異なるスタイル間でシェアする. そして,Sをstyle factorを抽出しているものとして,変更する.

how to train

Imgur

experiment

一般のキャプション生成の学習

slideshare

https://www.slideshare.net/DeepLearningJP2016/dl-hacks-stylenet-generating-attractive-visual-captions-with-styles

URL

https://www.microsoft.com/en-us/research/wp-content/uploads/2017/06/Generating-Attractive-Visual-Captions-with-Styles.pdf

author

Chuang Gan1 Zhe Gan2 Xiaodong He3 Jianfeng Gao 3 Li Deng3 1 IIIS, Tsinghua University, China 2 Duke University, USA 3 Microsoft Research Redmond, USA