ibadora / summarization_papers

要約論文をまとめるリポジトリです。
3 stars 0 forks source link

Document Summarization using Conditional Random Fields, Shen+, IJCAI07. #14

Open AkihikoWatanabe opened 6 years ago

AkihikoWatanabe commented 6 years ago

https://dl.acm.org/citation.cfm?id=1625736

AkihikoWatanabe commented 6 years ago

CRFを用いて単一文書要約の手法を考えましたという話。

気持ちとしては、

1. Supervisedなモデルでは、当時は原文書中の各文を独立に2値分類して要約を生成するモデルが多く、sentence間のrelationが考慮できていなかった
2. unsupervisedな手法では、ルールに基づくものなどが多く、汎用的ではなかった

といった問題があったので、CRF使ってそれを解決しましたという主張

CRFを使って、要約の問題を系列ラベリング問題に落とすことで、文間の関係性を考慮できるようにし、従来使われてきたルール(素性)をそのままCRFの素性としてぶちこんでしまえば、要約モデル学習できるよねっていうことだろうと思う。

CRFのFeatureとしては、文のpositionや、長さ、文の尤度、thematic wordsなどの基本的なFeatureに加え、LSAやHitsのScoreも利用している。

DUC2001のデータで評価した結果、basicな素性のみを使用した場合、unsupervisedなベースライン(Random, Lead, LSA, HITS)、およびsupervisedなベースライン(NaiveBayes, SVM, Logistic Regression, HMM)をoutperform。 また、LSAやHITSなどのFeatureを追加した場合、basicな素性のみと比べてROUGEスコアが有意に向上し、なおかつ提案手法がbest

結構referされているので、知っておいて損はないかもしれない。