Document Similarity for Texts of Varying Lengths via Hidden Topics

0. 論文

Document Similarity for Texts of Varying Lengths via Hidden Topics Hongyu Gong Tarek Sakakini Suma Bhat* Jinjun Xiong †

1. どんなもの？

文章の長さが大きく違うような文章同士の類似度を測る手法

2. 先行研究と比べてどこがすごい？

本文と要約のように長さや情報量が大きく異なる文章の類似度を測ることができる

3. 技術や手法のキモはどこ？

Word Mover's Distanceのような手法では長さが大きく異なる文章間の類似度計測には向いていない。そこで長い方の文章(e.g. 本文)から潜在的内トピックをベクトルで取り出し、それを短い方の文章(e.g. 要約文)にマッピングしていく形で類似度を評価する手法を提案した。また潜在的なトピックの抽出にはdomain-specificなword vectorが重要であるため、対象領域に合わせて学習を行う。

4. どうやって有効だと検証した？

WMD, Doc2Vecと比較した。Concept(短い)-Projects(長い) Matchingの分類タスクで評価し、提案手法がWMDを10ポイントほど上回る。提案手法で分類先の選択の際の閾値は学習データで調整

5. 議論はある？

トピックのvectorとword vectorを使ってトピックに対する単語の重要度を可視化できる

6. 次に読むべき論文は？

Extractive and abstractive event summarization over streaming web text Chris Kedzie and Kathleen McKeown

ymym3412 / acl-papers

Document Similarity for Texts of Varying Lengths via Hidden Topics #463