isnowfy / snownlp

Python library for processing Chinese text
MIT License
6.44k stars 1.37k forks source link

中文摘要提取无顺序 #91

Open lugq1990 opened 6 years ago

lugq1990 commented 6 years ago

Hi. 现在的工程需要对中文文章进行摘要的提取,我使用过了gensim的summarize,不过gensim对中文的支持并不是特别好,现在使用snownlp来进行摘要的提取。不过发现一个问题:利用snownlp提取的摘要是没有原始文章的段落顺序的。 比如: from snownlp import SnowNLP text = u"""我是一个中国人。我出生在辽宁。我喜欢编程。....""" s = SnowNLP(c_t) s.summary(2) 如果提取摘要则可能会变成: ['我出生在辽宁', '我是一个中国人'] 没有顺序。不过提取摘要还是需要有顺序的考虑上下文的,不然无法理解。

查看了TextRank类,请问一下能不能在这两个方法更改一下: `
def top_index(self, limit): return list(map(lambda x: x[0], self.top))[:limit]

def top(self, limit): return list(map(lambda x: self.docs[x[0]], self.top)) ` 能否对这两个方法添加一个sorted,就可以返回一个有顺序语句。

14H034160212 commented 4 years ago

如果先给一段话分句,给每个句子按照顺序打上标签,最后用TextRank提取出Topk的关键句的时候,再根据这个标签进行一次排序组成最后的摘要。

14H034160212 commented 4 years ago

我还感兴趣的一个问题是,用snowNLP做文本摘要提取的话,是不是在一个给定话题的文本下做训练做fine-tuning,在对新的模型进行摘要提取是不是可以有效的提升摘要提取的效果?

14H034160212 commented 4 years ago

目前我了解到的提供预训练的是分词,词性标注和情感分析。不知道还支不支持其他功能,像摘要提取和关键词提取?