fxsjy / jieba

结巴中文分词
MIT License
33.39k stars 6.73k forks source link

字典中设置了词频大小,想知道,怎么根据字典的词频进行排序 #967

Open darling331 opened 2 years ago

darling331 commented 2 years ago

比如,字典为 迅雷不及掩耳盗铃之势 4 掩耳盗铃 2 铃儿响叮当 3 当仁不让 4 让世界充满爱 5 迅雷不及 6 迅雷 7 掩耳 8 盗铃 9

我的输入为:【迅雷不及掩耳盗铃儿响叮当仁不让世界充满爱之势迅雷不及掩耳盗铃之势】

我得到的结果为:['迅雷', '迅雷不及', '掩耳', '盗铃', '掩耳盗铃', '儿响', '叮', '当仁不让', '世界', '充满', '爱之势', '迅雷', '掩耳', '盗铃', '迅雷不及掩耳盗铃之势']

期望得到的结果为:[ '盗铃', '掩耳','迅雷', ... ...] 是按照我字典的词频进行排序的。

并且为什么我字典中,没有的词,也能进行拆分?我是加载的自定义词典

jieba.set_dictionary("./dict.txt")  # 指定dict.txt加载路径,为了方便部署,使用相对路径。
jieba.initialize()  # jieba库初始化
darling331 commented 2 years ago

我找到了新的实现方式,将jieba字典加入内存中,然后,重新创建字典,取值时,根据内存中的字典得到词频,再根据词频进行排序,创建一个新的结果字典、