Learning Multimodal Representations for Unseen Activities

論文概要

動画中の見えない活動を認識するためのマルチモーダル表現(映像・テキスト)を学習する。敵対学習を使い非ペアのデータを効果的に利用できるようにしていたり、更にゼロショット学習等も行っており、準教師マルチモーダル学習についてやれることは大方やっている印象。

未確認。