Open ruoxin-alt opened 1 year ago
我用BERTSUM来跑中文,跑出的ROUGE得分非常低,发现问题是模型不能够正常生成中文的摘要,请问有人有遇到类似的问题吗
我当时是有跑出来的,ROUGE分数确实比较低,不过可以正常生成中文摘要,但生成速度比较慢。有可能是你输入的文本太大所以无法正常生成。
我用的数据集是CLTS,因为我看到CLTS数据集原来的论文给出的在transformer模型的rouge得分可以到48(真的很高),我就想用baseline跑一下,也试一些BERT的方法。我最后的解决方法是把在test数据集上生成的摘要拿出来,用rouge-chinese的库来算分,分数好像就会高一点。但是我简单检查了一下生成的摘要,还会有一些不太正常的。可以问问您当时跑的ROUGE得分大概是多少吗
我用的数据集是CLTS,因为我看到CLTS数据集原来的论文给出的在transformer模型的rouge得分可以到48(真的很高),我就想用baseline跑一下,也试一些BERT的方法。我最后的解决方法是把在test数据集上生成的摘要拿出来,用rouge-chinese的库来算分,分数好像就会高一点。但是我简单检查了一下生成的摘要,还会有一些不太正常的。可以问问您当时跑的ROUGE得分大概是多少吗
我去看了CLTS的论文了,我发现这边写论文每次都不说到底是用 ROUGE Recall得分还是ROUGE F1得分,我至今也不知道为什么,文章中的得分我猜测他们用的是ROUGE Recall的得分,因为数据比较好看,但事实上好像用ROUGE F1来评判更好?之前看英文摘要的论文都有写清楚两个得分各是多少的。我用的数据集是NLPCC2017,在ROUGE Recall的得分大概是是R-1:50+;R-2:30+;R-L:50+,在ROUGE F1的得分是R-1:20+;R-2:10+;R-L:20+。当时检查一下生成的摘要效果确实比较一般,而且同一个文章摘要出来的结果时好时坏。我记得是文章相对较短的情况下(大概是500-1000字),摘要效果更好。
我去看了CLTS的论文了,我发现这边写论文每次都不说到底是用 ROUGE Recall得分还是ROUGE F1得分,我至今也不知道为什么,文章中的得分我猜测他们用的是ROUGE Recall的得分,因为数据比较好看,但事实上好像用ROUGE F1来评判更好?之前看英文摘要的论文都有写清楚两个得分各是多少的。我用的数据集是NLPCC2017,在ROUGE Recall的得分大概是是R-1:50+;R-2:30+;R-L:50+,在ROUGE F1的得分是R-1:20+;R-2:10+;R-L:20+。当时检查一下生成的摘要效果确实比较一般,而且同一个文章摘要出来的结果时好时坏。我记得是文章相对较短的情况下(大概是500-1000字),摘要效果更好。
非常谢谢您的回复告知,是很有用的信息!还想问一下在Web应用实现的部分,我在跑的时候发现predict.py文件中关于模型下载和构建的部分,model=Summarizer(),这部分会报错显示还要很多参数没有输入,比如“AttributeError: 'str' object has no attribute 'temp_dir'”。这一块的部分是需要把train.py文件中下面的args参数部分都补全吗。(您之前做Web展示的时候是可以正常生成摘要了的吗
我去看了CLTS的论文了,我发现这边写论文每次都不说到底是用 ROUGE Recall得分还是ROUGE F1得分,我至今也不知道为什么,文章中的得分我猜测他们用的是ROUGE Recall的得分,因为数据比较好看,但事实上好像用ROUGE F1来评判更好?之前看英文摘要的论文都有写清楚两个得分各是多少的。我用的数据集是NLPCC2017,在ROUGE Recall的得分大概是是R-1:50+;R-2:30+;R-L:50+,在ROUGE F1的得分是R-1:20+;R-2:10+;R-L:20+。当时检查一下生成的摘要效果确实比较一般,而且同一个文章摘要出来的结果时好时坏。我记得是文章相对较短的情况下(大概是500-1000字),摘要效果更好。
非常谢谢您的回复告知,是很有用的信息!还想问一下在Web应用实现的部分,我在跑的时候发现predict.py文件中关于模型下载和构建的部分,model=Summarizer(),这部分会报错显示还要很多参数没有输入,比如“AttributeError: 'str' object has no attribute 'temp_dir'”。这一块的部分是需要把train.py文件中下面的args参数部分都补全吗。(您之前做Web展示的时候是可以正常生成摘要了的吗
1.有点久远,印象中没有遇到过你这种情况。2.当时做Web展示的时候是可以正常生成摘要的。
@ruoxin-alt @T-Larm 请问,可以分享一下训练后的模型吗?多谢。nlp_chen@163.com 。
我用BERTSUM来跑中文,跑出的ROUGE得分非常低,发现问题是模型不能够正常生成中文的摘要,请问有人有遇到类似的问题吗