ibadora / summarization_papers

要約論文をまとめるリポジトリです。
3 stars 0 forks source link

Learning to Generate Coherent Sumamry with Discriminative Hidden Semi-Markov Model, Nishikawa+, COLING'14 #16

Open AkihikoWatanabe opened 6 years ago

AkihikoWatanabe commented 6 years ago

http://www.aclweb.org/anthology/C14-1156

AkihikoWatanabe commented 6 years ago

西川さんの研究(理解が間違っている可能性がある) Hidden-semi-markovモデルを用いた単一文書要約手法を提案。

通常のHMMでは一つの隠れ状態に一つのunit(要約の文脈だと文?)が対応するが、hidden-semi-markov(HSMM)モデルでは複数のunitを対応づけることが可能。 隠れ状態に対応するunitを文だと考えると、ある文の複数の亜種を考慮できるようになるため、ナップサック制約を満たしつつ最適な文の亜種を選択するといったことが可能となる。 とかまあ色々難しいことが前半の節に書いてある気がするが、3.3節を見るのがわかりやすいかもしれない。

定式化を見ると、基本的なナップサック問題による要約の定式化に、Coherenceを表すtermと文の変種を考慮するような変数が導入されているだけである。 文のweightや、coherenceのweightは構造学習で学習し、Passive Aggressiveを用いて、loss functionとしてはROUGEを用いている(要はROUGEが高くなるように、outputの要約全体を考慮しながら、weightを学習するということ)。

文の変種としては、各文を文圧縮したものを用意している。 また、動的計画法によるデコーディングのアルゴリズムも提案されている。

構造学習を行う際には大量の教師データが必要となるが、13,000記事分のニュース記事と対応する人手での要約のデータを用いて学習と評価を行なっており、当時これほど大規模なデータで実験した研究はなかった。

ROUGEでの評価の結果、文の変種(文圧縮)を考慮するモデルがベースラインを上回る結果を示したが、LEADとは統計的には有意差なし。しかしながら、人手で生成した要約との完全一致率が提案手法の方が高い。 また、ROUGEの評価だけでなく、linguistic quality(grammaticality, structure/coherenceなど)を人手で評価した結果、ベースラインを有意にoutperform。LEADはgrammaticalityでかなり悪い評価になっていて、これは要約を生成すると部分文が入ってしまうため。 訓練事例数を変化させてROUGEスコアに関するlearning curveを描いた結果、訓練事例の増加に対してROUGEスコアも単調増加しており、まだサチる気配を見せていないので、事例数増加させたらまだ性能よくなりそうという主張もしている。

AkihikoWatanabe commented 6 years ago

評価に使用した記事が報道記事だったとするならば、quality的にはLeadに勝ってそうな雰囲気を感じるので、結構すごい気はする(単一文書要約で報道記事においてLEADは最強感あったし)。 ただ、要約の評価においてinformativenessを評価していないので、ROUGEスコア的にはLeadとcomparableでも、実際に生成される要約の情報量として果たしてLEADに勝っているのか興味がある。

AkihikoWatanabe commented 6 years ago

どこか誤り等があったら指摘してくれると嬉しいです。