Open tm4roon opened 5 years ago
言語モデルのみを利用したシンプルな教師なしの生成型要約手法を提案。ここでは、Contextual Matching ModelとDomain Fluency Modelの2つの言語モデルを利用して要約文を生成している。生成型要約および抽出型要約の2つのタスクで、提案手法の有用性を示した。
要約では、次の2つの特性を満たしている必要がある。
これらを本手法では、次式のように定式化する。
ここで、は入力テキスト、は要約文を表す。また、は正確性の評価であり、は、流暢性の評価を表す (はハイパーパラメータ)。以下で、それぞれの詳細を述べる。また、出力語彙Cは、元テキストに含まれる語及びベクトル空間上でその近傍にあるk語 (論文中では、k=6)のみに制限している。
正確性は、元テキストと要約文の文脈類似度によって評価する。文脈の類似度は、言語モデルの最終出力系列のコサイン類似度によって計算する。ここで、文脈の類似度をと表すこととする。このとき、, はそれぞれ系列長mの入力テキスト、系列長nの要約文を表す。
実際に生成を行う際には、以下の手順に従う。
n=1のとき
n > 1のとき
が元テキストの末尾に対応付くまでstep2を繰り返す。
言語モデル確率を利用して、流暢性の評価を行う。しかしながら、事前学習済みの言語モデルの語彙Vと出力語彙Cではサイズが異なり、適切に言語モデルが計算できない。そこで、Voronoi partitionにより語彙Vを制約を設けた語彙Cにマップさせる。ここで、のvoronoi cellをとしたとき、言語モデルは次のように計算される。
教師あり学習のモデルに匹敵する性能を達成。
解説スライド: https://www.slideshare.net/TakumiMaruyama4/simple-unsupervised-summarizationbycontextualmatching
Simple Unsupervised Summarization by Contextual Matching
言語モデルのみを利用したシンプルな教師なしの生成型要約手法を提案。ここでは、Contextual Matching ModelとDomain Fluency Modelの2つの言語モデルを利用して要約文を生成している。生成型要約および抽出型要約の2つのタスクで、提案手法の有用性を示した。
文献情報
手法
要約では、次の2つの特性を満たしている必要がある。
これらを本手法では、次式のように定式化する。
ここで、は入力テキスト、は要約文を表す。また、は正確性の評価であり、は、流暢性の評価を表す (はハイパーパラメータ)。以下で、それぞれの詳細を述べる。また、出力語彙Cは、元テキストに含まれる語及びベクトル空間上でその近傍にあるk語 (論文中では、k=6)のみに制限している。
Contextual Matching Model
正確性は、元テキストと要約文の文脈類似度によって評価する。文脈の類似度は、言語モデルの最終出力系列のコサイン類似度によって計算する。ここで、文脈の類似度をと表すこととする。このとき、, はそれぞれ系列長mの入力テキスト、系列長nの要約文を表す。
実際に生成を行う際には、以下の手順に従う。
n=1のとき
n > 1のとき
が元テキストの末尾に対応付くまでstep2を繰り返す。
Domain Fluency Model
言語モデル確率を利用して、流暢性の評価を行う。しかしながら、事前学習済みの言語モデルの語彙Vと出力語彙Cではサイズが異なり、適切に言語モデルが計算できない。そこで、Voronoi partitionにより語彙Vを制約を設けた語彙Cにマップさせる。ここで、のvoronoi cellをとしたとき、言語モデルは次のように計算される。
Results
教師あり学習のモデルに匹敵する性能を達成。