sunyilgdx / SIFRank_zh

Keyphrase or Keyword Extraction 基于预训练模型的中文关键词抽取方法(论文SIFRank: A New Baseline for Unsupervised Keyphrase Extraction Based on Pre-trained Language Model 的中文版代码)
417 stars 80 forks source link

提取的关键词倾向于带英文字母 #21

Open hummingg opened 2 years ago

hummingg commented 2 years ago

大佬好! 我用这份代码提取《大话数据结构》全书,发现得到的关键词大多都含字母,且不大像一个词,如下图。 请问,我该怎么改进呢?

SIFRank关键词

sunyilgdx commented 2 years ago

这里修改正则表达式 @hummingg

hummingg commented 2 years ago

似乎问题是THULAC分词错误导致的,碰上英文就歇菜。清华的分词模型对自定义用户词典的支持好像不太好。 准备把THULAC换成jieba试试,可行吗? 无向图有向图

sunyilgdx commented 2 years ago

跟分词系统和正则匹配规则相关度很大

1sebsgithub1 commented 1 year ago

大佬你好,怎么才能提取全书呢