視覚的質問応答のための敵対的学習を用いた多種質問解答の生成

https://www.ipsj.or.jp/award/9faeag0000004f1r-att/CH-006.pdf

視覚的質問応答のための敵対的学習を用いた多種質問解答の生成 Adversarial Training of Diverse QA Generator for Visual Question Answering 築山将央∗ 伊神大貴∗ 入江豪† 相澤清晴∗

FIT2018

本研究では，VQA における半教師あり学習のために，画像に対して多様な質問解答ペアを生成するモデルの敵対的学習を行う手法を提案する．半教師あり学習とは，モデルの学習の際に正ラベル付きのデータに加えてラベル無しのデータを利用することで，前者のみによる学習よりも精度を高めることを目的とした手法である．図 1 に本手法のフレームワークの概観を示す．VQA においては，ラベル無しの画像に対して仮のラベル（PseudoLabel）として生成した質問解答ペアを付与することで，合成データとして VQA モデルの学習に利用することが出来るようになる．また本手法では，強化学習の手法で用いられる勾配方策法（Policy Gradient）を取り入れることで，質問解答ペア生成器を学習させている．

morioka / reading

視覚的質問応答のための敵対的学習を用いた多種質問解答の生成 #38