AkihikoWatanabe / paper_notes

たまに追加される論文メモ
https://AkihikoWatanabe.github.io/paper_notes
17 stars 0 forks source link

LCSTS: A large scale chinese short text summarizatino dataset, Hu+, EMNLP'15 #75

Open AkihikoWatanabe opened 6 years ago

AkihikoWatanabe commented 6 years ago

http://www.aclweb.org/anthology/D15-1229

AkihikoWatanabe commented 6 years ago

Large Chinese Short Text Summarization (LCSTS) datasetを作成

データセットを作成する際は、Weibo上の特定のorganizationの投稿の特徴を利用。 Weiboにニュースを投稿する際に、投稿の冒頭にニュースのvery short summaryがまず記載され、その後ニュース本文(短め)が記載される特徴があるので、この対をsource-reference対として収集した。 収集する際には、約100個のルールに基づくフィルタリングやclearning, 抽出等を行なっている。

image

データセットのpropertyとしては、下記のPartI, II, IIIに分かれている。

PartI: 2.4Mのshort text - summary pair PartII: PartIからランダムにサンプリングされた10kのpairに対して、5 scaleで要約のrelevanceをratingしたデータ。ただし、各pairにラベルづけをしたevaluatorは1名のみ。 PartIII: 2kのpairに対して(PartI, PartIIとは独立)、3名のevaluatorが5-scaleでrating。evaluatorのratingが一致した1kのpairを抽出したデータ。

image

RNN-GRUを用いたSummarizerも提案している。

image

AkihikoWatanabe commented 6 years ago

CopyNetなどはLCSTSを使って評価している。他にも使ってる論文あったはず。

AkihikoWatanabe commented 6 years ago

ACL'17のPointer Generator Networkでした。