Key2Vec: Automatic Ranked Keyphrase Extraction from Scientific Articles using Phrase Embeddings

一言でいうと

論文で使用されているKeyphraseをランク付きで抽出する手法三段階で抽出する

Candidate Selection 品詞付けや固有用言抽出を使用したheuristicな方法で候補を絞るまた事前に抽出した候補のembeddingをfasttextを使用して獲得しておくこのembeddingはkeyphraseで使用されている単語の平均として獲得するのではなく keyphraseを1単語とみなして直接fasttextのembeddingを獲得するようである
Candidate Scoring 論文ごとにtheme excerptを獲得するこれはタイトルおよび概要周辺のkeyphrase候補のembedding平均ベクトルとする theme excerptとkeyphrase候補のcosine distanceを重みとして獲得する (この辺りは論文ならではのheuristicsなきがする) (とはいえNewsとかでも先頭のparagraphが概要っぽくなるかも？)
Candidate Ranking 最終的にランキングとして用いるscoreはweighted personalized PageRank algorithmを使用して獲得するグラフはkeyphrase候補列においてwindow size=5での隣接keyphrase候補にedgeを通す edgeの重みは以下のsrの指標とする

PageRankのscoreは以下となるここでwはCandidate Scoringの時に求めたtheme excerptとの重みとする