如何根据自定义词典，从文本中提取词典中的关键词?

sj8354661 commented 5 years ago

需求：如何根据自定义词典，从文本中提取词典中的关键词。

设想三种方案： 1、输入文本，获取结巴分词结果，编写一套代码根据分词结果对比自定义词典，输出同时包含在文本中和词典中的词。 2、输入文本，编写一套代码，逐个查询词典中的词是否在文本中出现，输出同时包含在文本中和词典中的词。 3、利用结巴词性标注的功能，在自定义词典中，将自定义词全部标注为某一特殊词性，利用结巴根据词性提取关键词功能，输入文本，提取指定词性的关键词。 4、利用结巴自定义词典功能，分词完全根据指定的自定义词典进行分词，输入文本，调用指定词典，输出分词结果。 5、利用结巴权重功能，输出分词结果中将指定自定义词典中的词的权重调大，其他词权重调低，输出分词结果后，截取权重靠前的几个词。

问题：哪种方案可以实现需求？结巴有没有直接根据算定义词典提取关键词的功能？

因为没有看到可以直接实现类似这样需求的资料，所以在此提问，请不吝赐教！

如果您了解这方面技术，请提供一下思路，如果能提供一下教程学习地址，或者写点参考代码就更好了。谢谢，不胜感激！

fapi-china commented 4 years ago

请问你是否应用于某个垂直领域？还是仅用于学习实验？

fukuball commented 4 years ago

@sj8354661 可以參考 https://speakerdeck.com/fukuball/head-first-chinese-text-segmentation，50 幾頁附近有自定義辭典使用思路，其實就是提高自己想要的權重去做到

fukuball / jieba-php

如何根据自定义词典，从文本中提取词典中的关键词? #59