Open yskn67 opened 4 years ago
論文で使用されているKeyphraseをランク付きで抽出する手法 三段階で抽出する
Candidate Selection 品詞付けや固有用言抽出を使用したheuristicな方法で候補を絞る また事前に抽出した候補のembeddingをfasttextを使用して獲得しておく このembeddingはkeyphraseで使用されている単語の平均として獲得するのではなく keyphraseを1単語とみなして直接fasttextのembeddingを獲得するようである
Candidate Scoring 論文ごとにtheme excerptを獲得する これはタイトルおよび概要周辺のkeyphrase候補のembedding平均ベクトルとする theme excerptとkeyphrase候補のcosine distanceを重みとして獲得する (この辺りは論文ならではのheuristicsなきがする) (とはいえNewsとかでも先頭のparagraphが概要っぽくなるかも?)
Candidate Ranking 最終的にランキングとして用いるscoreはweighted personalized PageRank algorithmを使用して獲得する グラフはkeyphrase候補列においてwindow size=5での隣接keyphrase候補にedgeを通す edgeの重みは以下のsrの指標とする
PageRankのscoreは以下となる ここでwはCandidate Scoringの時に求めたtheme excerptとの重みとする
https://www.aclweb.org/anthology/N18-2100/
Debanjan Mahata(Bloomberg) John Kuriakose(Infosys Limited) Rajiv Ratn Shah(IIIT-Delhi) Roger Zimmermann(NUS-Singapore)
2018
一言でいうと
論文で使用されているKeyphraseをランク付きで抽出する手法 三段階で抽出する
Candidate Selection 品詞付けや固有用言抽出を使用したheuristicな方法で候補を絞る また事前に抽出した候補のembeddingをfasttextを使用して獲得しておく このembeddingはkeyphraseで使用されている単語の平均として獲得するのではなく keyphraseを1単語とみなして直接fasttextのembeddingを獲得するようである
Candidate Scoring 論文ごとにtheme excerptを獲得する これはタイトルおよび概要周辺のkeyphrase候補のembedding平均ベクトルとする theme excerptとkeyphrase候補のcosine distanceを重みとして獲得する (この辺りは論文ならではのheuristicsなきがする) (とはいえNewsとかでも先頭のparagraphが概要っぽくなるかも?)
Candidate Ranking 最終的にランキングとして用いるscoreはweighted personalized PageRank algorithmを使用して獲得する グラフはkeyphrase候補列においてwindow size=5での隣接keyphrase候補にedgeを通す edgeの重みは以下のsrの指標とする
PageRankのscoreは以下となる ここでwはCandidate Scoringの時に求めたtheme excerptとの重みとする
論文リンク
https://www.aclweb.org/anthology/N18-2100/
著者/所属機関
Debanjan Mahata(Bloomberg) John Kuriakose(Infosys Limited) Rajiv Ratn Shah(IIIT-Delhi) Roger Zimmermann(NUS-Singapore)
投稿日付(yyyy/MM/dd)
2018
概要
新規性・差分
手法
結果
コメント