中文摘要提取无顺序

lugq1990 commented 6 years ago

Hi. 现在的工程需要对中文文章进行摘要的提取，我使用过了gensim的summarize，不过gensim对中文的支持并不是特别好，现在使用snownlp来进行摘要的提取。不过发现一个问题：利用snownlp提取的摘要是没有原始文章的段落顺序的。比如： from snownlp import SnowNLP text = u"""我是一个中国人。我出生在辽宁。我喜欢编程。....""" s = SnowNLP(c_t) s.summary(2) 如果提取摘要则可能会变成： ['我出生在辽宁', '我是一个中国人'] 没有顺序。不过提取摘要还是需要有顺序的考虑上下文的，不然无法理解。

查看了TextRank类，请问一下能不能在这两个方法更改一下： `
def top_index(self, limit): return list(map(lambda x: x[0], self.top))[:limit]

def top(self, limit): return list(map(lambda x: self.docs[x[0]], self.top)) ` 能否对这两个方法添加一个sorted，就可以返回一个有顺序语句。

14H034160212 commented 4 years ago

如果先给一段话分句，给每个句子按照顺序打上标签，最后用TextRank提取出Topk的关键句的时候，再根据这个标签进行一次排序组成最后的摘要。

14H034160212 commented 4 years ago

我还感兴趣的一个问题是，用snowNLP做文本摘要提取的话，是不是在一个给定话题的文本下做训练做fine-tuning，在对新的模型进行摘要提取是不是可以有效的提升摘要提取的效果？

14H034160212 commented 4 years ago

目前我了解到的提供预训练的是分词，词性标注和情感分析。不知道还支不支持其他功能，像摘要提取和关键词提取？

isnowfy / snownlp

中文摘要提取无顺序 #91