Palaskar, Shruti, Jindřich Libovický, Spandana Gella, and Florian Metze. 2019. “Multimodal Abstractive Summarization for How2 Videos.” In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 6587–96. Florence, Italy: Association for Computational Linguistics.
解決したい課題
HowTo動画の要約テキストの自動生成に取り組んだ研究。
Pilot experimentsとして、どのような情報を使い、どのようなモデルが有用か分析する。
解決したい課題
HowTo動画の要約テキストの自動生成に取り組んだ研究。 Pilot experimentsとして、どのような情報を使い、どのようなモデルが有用か分析する。
提案手法
ルールベースや言語モデル、Seq2seq、先行研究の手法などを比較。
また、評価指標としてContent F1を提案。 機能語を除外して、内容語で評価を行う。 参照文と生成文のMonolingual alignmentにより、対応づく単語のF1スコアを算出。
結果
人手評価では、multi-modal情報を使ったものが最も人手評価結果が良かった。 ASRテキストを使うと精度下がっている。