fxsjy / jieba

结巴中文分词
MIT License
33.39k stars 6.73k forks source link

未能成功标注词性 #968

Open axty666 opened 2 years ago

axty666 commented 2 years ago

未能成功标注地名的词性,示例:

import jieba
import jieba.posseg as pseg
words = pseg.cut("滨州滨州市")
for word, flag in words:
    if flag == 'ns':
        print('%s' % (word))

结果输出了滨州,而没有滨州市

import jieba
import jieba.posseg as pseg
words = pseg.cut("滨州首尔冲绳")
for word, flag in words:
    if flag == 'ns':
        print('%s' % (word))

结果只输出了滨州 而没有首尔冲绳

axty666 commented 2 years ago

而类似于北京北京市或者天津天津市这种的却能被正确识别 我怀疑是字典没有完整收录地名 添加自定义字典虽然能缓解这一问题,但未免看起来很奇怪