huaban / jieba-analysis

结巴分词(java版)
https://github.com/huaban/jieba-analysis
Apache License 2.0
2.58k stars 837 forks source link

修复加载用户字典时total不改变,添加是否加载默认字典配置 #58

Open alexqdjay opened 7 years ago

alexqdjay commented 7 years ago
  1. 之前加载用户字典时total不会改变,这会导致最后计算频率比时不精确,特别是用户字典也非常大时
  2. 用户字典跟默认字典产生冲突时会覆盖之前的,应该是相加,其实是对之前训练预料的扩展
  3. 是否加载默认字典可配置,可在初始化WorkDictionary之前调用

    System.setProperty("jieba.defaultDict", "false")  //禁止使用默认词库 

    或者启动参数中添加 -Djieba.defaultDict=false,禁用默认词库对专业领域分词是非常必要的