Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model

論文概要

映像中の音声が人間の注意力に影響を与えることを明らかにした研究。大規模な音声付アイトラッキング映像データベース(34名被験者が300の動画を視聴)を取得して傾向を分析、基本的に人の顔に注意が行くことを確認。映像中のSaliencyを予測するためのマルチモーダルNNを提案。

未確認。