didi / ChineseNLP

Datasets, SOTA results of every fields of Chinese NLP
https://chinesenlp.xyz
1.79k stars 273 forks source link

有關中文摘要 #13

Open playma opened 4 years ago

playma commented 4 years ago

我看到了你們在這裡發佈的訊息,與把 Abstractive summarization 整合進 library 覺得非常好 https://chinesenlp.xyz/docs/text_summarization.html

一年前我在碩士期間研究了 Chinese summarization 這是我的 Paper

當初發現了 LCSTS 的資料集上有缺陷,在 training set 和 testing set 上有很大一部分的重複 聯繫 dataset 的作者,他後來發佈了 LCSTS2.0 但依然有重複的部分,我們提出了 LCSTS2.0-clean 且發表了 hybrid-word-character 的方法,在最原始版本的 LCSTS 資料集上 ROUGE score 達到快 60,但 LCSTS2.0-clean 上沒有這麼好,但也比其他的模型好。

這證明兩件事情

  1. 資料集必須使用 LCSTS2.0,比較能公平的比較 model
  2. hybrid-word-character 的方法確實是非常有用的

這是我的 paper https://arxiv.org/abs/1802.09968

看到 DiDi 開源了非常多的項目,覺得很棒 希望能在這裡跟大家一起討論,謝謝

playma commented 4 years ago

model 的訓練使用的都是 OpenNMT-py 的 repo 來實作 OpenNMT-py 是一個哈佛的專案

當初初期的成果,哈佛的教授 Alexander M. Rush 有聯繫我 將 model 放上他們的網站,後來最新的就沒有放上去了 但依然能夠透過 OpenNMT-py 輕易的搭建出像 paper 一樣的結果 http://opennmt.net/Models-py/#chinese