提取的关键词倾向于带英文字母

sunyilgdx / SIFRank_zh

Keyphrase or Keyword Extraction 基于预训练模型的中文关键词抽取方法（论文SIFRank: A New Baseline for Unsupervised Keyphrase Extraction Based on Pre-trained Language Model 的中文版代码）

417 stars 80 forks source link

提取的关键词倾向于带英文字母 #21

Open hummingg opened 2 years ago

hummingg commented 2 years ago

大佬好！我用这份代码提取《大话数据结构》全书，发现得到的关键词大多都含字母，且不大像一个词，如下图。请问，我该怎么改进呢？

SIFRank关键词

sunyilgdx commented 2 years ago

这里修改正则表达式 @hummingg

hummingg commented 2 years ago

似乎问题是THULAC分词错误导致的，碰上英文就歇菜。清华的分词模型对自定义用户词典的支持好像不太好。准备把THULAC换成jieba试试，可行吗？无向图有向图

sunyilgdx commented 2 years ago

跟分词系统和正则匹配规则相关度很大

1sebsgithub1 commented 1 year ago

大佬你好，怎么才能提取全书呢