Closed kacky24 closed 5 years ago
魅力的なキャプションを異なるスタイル(romantic, humorous)で生成するモデル(StyleNet)の提案. StyleNetでは,モノリンガルのスタイルを持ったcorpusと通常の画像/動画・キャプションペアを用いて,スタイルを持ったキャプションを生成する. 具体的には,factored LSTM modelを新しく導入し,マルチタスク学習によって,文からfactual, style factorを取り出す. 要は,スタイルを持ったキャプションと画像のセットを用いずに,style factorをテキストのみから抽出し,それを利用しスタイルを持ったキャプションを生成できる.
factored LSTMでは,普通のLSTMの入力 に作用させるWxを以下のように因子分解する. hに作用させる重み行列は,そのまま. すなわち,キャプションの中身やスタイルに直接影響を与える部分Wxは変形し,ロングスパンの構文的な依存関係を主にとらえる部分Whは変形しない. よって,factored LSTMは以下のように表される.
上記のU, V, Wは,テキストの一般的な事実説明をモデル化しているとして,異なるスタイル間でシェアする. そして,Sをstyle factorを抽出しているものとして,変更する.
https://www.slideshare.net/DeepLearningJP2016/dl-hacks-stylenet-generating-attractive-visual-captions-with-styles
https://www.microsoft.com/en-us/research/wp-content/uploads/2017/06/Generating-Attractive-Visual-Captions-with-Styles.pdf
Chuang Gan1 Zhe Gan2 Xiaodong He3 Jianfeng Gao 3 Li Deng3 1 IIIS, Tsinghua University, China 2 Duke University, USA 3 Microsoft Research Redmond, USA
short summary
魅力的なキャプションを異なるスタイル(romantic, humorous)で生成するモデル(StyleNet)の提案. StyleNetでは,モノリンガルのスタイルを持ったcorpusと通常の画像/動画・キャプションペアを用いて,スタイルを持ったキャプションを生成する. 具体的には,factored LSTM modelを新しく導入し,マルチタスク学習によって,文からfactual, style factorを取り出す. 要は,スタイルを持ったキャプションと画像のセットを用いずに,style factorをテキストのみから抽出し,それを利用しスタイルを持ったキャプションを生成できる.
factored LSTM
factored LSTMでは,普通のLSTMの入力 に作用させるWxを以下のように因子分解する. hに作用させる重み行列は,そのまま. すなわち,キャプションの中身やスタイルに直接影響を与える部分Wxは変形し,ロングスパンの構文的な依存関係を主にとらえる部分Whは変形しない. よって,factored LSTMは以下のように表される.
上記のU, V, Wは,テキストの一般的な事実説明をモデル化しているとして,異なるスタイル間でシェアする. そして,Sをstyle factorを抽出しているものとして,変更する.
how to train
experiment
一般のキャプション生成の学習
detail
slideshare
https://www.slideshare.net/DeepLearningJP2016/dl-hacks-stylenet-generating-attractive-visual-captions-with-styles
URL
https://www.microsoft.com/en-us/research/wp-content/uploads/2017/06/Generating-Attractive-Visual-Captions-with-Styles.pdf
author
Chuang Gan1 Zhe Gan2 Xiaodong He3 Jianfeng Gao 3 Li Deng3 1 IIIS, Tsinghua University, China 2 Duke University, USA 3 Microsoft Research Redmond, USA