fukuball / jieba-php

"結巴"中文分詞:做最好的 PHP 中文分詞、中文斷詞組件。 / "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best PHP Chinese word segmentation module.
http://jieba-php.fukuball.com
MIT License
1.32k stars 260 forks source link

如何根据自定义词典,从文本中提取词典中的关键词? #59

Open sj8354661 opened 5 years ago

sj8354661 commented 5 years ago

需求: 如何根据自定义词典,从文本中提取词典中的关键词。

设想三种方案: 1、输入文本,获取结巴分词结果,编写一套代码根据分词结果对比自定义词典,输出同时包含在文本中和词典中的词。 2、输入文本,编写一套代码,逐个查询词典中的词是否在文本中出现,输出同时包含在文本中和词典中的词。 3、利用结巴词性标注的功能,在自定义词典中,将自定义词全部标注为某一特殊词性,利用结巴根据词性提取关键词功能,输入文本,提取指定词性的关键词。 4、利用结巴自定义词典功能,分词完全根据指定的自定义词典进行分词,输入文本,调用指定词典,输出分词结果。 5、利用结巴权重功能,输出分词结果中将指定自定义词典中的词的权重调大,其他词权重调低,输出分词结果后,截取权重靠前的几个词。

问题: 哪种方案可以实现需求? 结巴有没有直接根据算定义词典提取关键词的功能?

因为没有看到可以直接实现类似这样需求的资料,所以在此提问,请不吝赐教!

如果您了解这方面技术,请提供一下思路,如果能提供一下教程学习地址,或者写点参考代码就更好了。谢谢,不胜感激!

fapi-china commented 4 years ago

请问你是否应用于某个垂直领域?还是仅用于学习实验?

fukuball commented 4 years ago

@sj8354661 可以參考 https://speakerdeck.com/fukuball/head-first-chinese-text-segmentation,50 幾頁附近有自定義辭典使用思路,其實就是提高自己想要的權重去做到