是否支持普通分词后的句子呢,不是分成单字

JialeGuo / py_rouge_zh

A full Python implementation of the ROUGE metric, especially for Chinese texts processing.

Apache License 2.0

17 stars 4 forks source link

Open colaaaaaa opened 4 years ago

JialeGuo commented 4 years ago

应该是可以的，只要分词结果是空格隔开的。我写这个一开始是为了中文摘要任务，所以逐字计算rouge。原理都是以字符串为基本单位。

colaaaaaa commented 4 years ago

应该是可以的，只要分词结果是空格隔开的。我写这个一开始是为了中文摘要任务，所以逐字计算rouge。原理都是以字符串为基本单位。我也是在做中文摘要任务,还不太熟悉rouge中文评价,请问中文指标评测通常是分割成单字去算嘛?分成词和分成字计算会不会有很大差异呢?谢谢!

JialeGuo commented 4 years ago

应该是可以的，只要分词结果是空格隔开的。我写这个一开始是为了中文摘要任务，所以逐字计算rouge。原理都是以字符串为基本单位。我也是在做中文摘要任务,还不太熟悉rouge中文评价,请问中文指标评测通常是分割成单字去算嘛?分成词和分成字计算会不会有很大差异呢?谢谢!

我没有对比过这种差异，不过觉得对于extractive和abstractive的模型用于中文摘要，分字和分词应该有些不同。建议都试一下。以及从词表规模来说，可能只用字的词表会小一些。

colaaaaaa commented 4 years ago

嗯嗯~~ 是这样的!! 请问为什么full-python 会比基于perl语言的ROUGE1.5.5 快呀? 快的程度是多少呢~~~谢谢~~

JialeGuo commented 4 years ago

嗯嗯~~ 是这样的!! 请问为什么full-python 会比基于perl语言的ROUGE1.5.5 快呀? 快的程度是多少呢~~~谢谢~~

我记得主流的paper在模型训练的时候经常用rouge作为早停的标志，所以会用py-rouge来计算，最后评估模型质量的时候还是需要用perl的结果来比较(公平起见)。具体快的速度我没有比较过，我当时用这个主要是生成extractive摘要的伪标签。