sunyilgdx / SIFRank_zh

Keyphrase or Keyword Extraction 基于预训练模型的中文关键词抽取方法(论文SIFRank: A New Baseline for Unsupervised Keyphrase Extraction Based on Pre-trained Language Model 的中文版代码)
417 stars 80 forks source link

请问 dict.txt 是通过什么语料得到的呢? #14

Closed Anastasia-Zhang closed 3 years ago

sunyilgdx commented 3 years ago

jieba分词自带的词典,pip install jieba以后,可以在python\Lib\site-packages\jieba目录下找到,这里主要使用了它的词频统计信息,也可以通过大规模的语料自行统计

Anastasia-Zhang commented 3 years ago

好的 谢谢!