letiantian / TextRank4ZH

:deciduous_tree:从中文文本中自动提取关键词和摘要
MIT License
3.27k stars 847 forks source link

可以用作英文吗? #14

Closed meshiguge closed 7 years ago

letiantian commented 7 years ago

可以。但是 cat和Cat可能被认为是两个词。

Sixoloy commented 7 years ago

对全文进行分词的时候为何不采用并行,这样每句都能独立处理最后再进行归并。

letiantian commented 7 years ago

@Sixoloy 这样看jieba分词的实现了。

1、如果要并行,用什么方式实现?多线程?多进程? 2、是该在分词阶段并行?还是处理大量文章时候并行?并行的粒度应该在什么地方? 3、文本数量不多,没必要并行。 4、纯CPU操作,单核CPU的话,有必要并行吗?

Sixoloy commented 7 years ago

我觉得可以像jieba那样添加并行的选项,当用到Segmentation分句的时候可以按照选项决定是否要每句开一个线程分词。这样用多核机器处理大量文章的时候还是会有性能提升的吧。

letiantian commented 7 years ago

也许会吧。 我更倾向于将文章作为最小的粒度来处理开多个进程和线程处理文章。也许应该把jieba分析的选项暴露出来。