mayabot / mynlp

一个生产级、高性能、模块化、可扩展的中文NLP工具包。(中文分词、平均感知机、fastText、拼音、新词发现、分词纠错、BM25、人名识别、命名实体、自定义词典)
https://mynlp.mayabot.com/
Apache License 2.0
675 stars 90 forks source link

新词发现 BUG #37

Open lbhfuture opened 3 years ago

lbhfuture commented 3 years ago

NewWordFindEngine 类中 finishFirst() 方法里调用 topWordCounter.clean() 方法后,topWordCounter.data 里的数据有可能为空,这时候的 treeMap 为空,在接下来的初始化 DoubleArrayTrieMap 时会报错。是这个类的构造函数里对 treeMap 进行了 forEach 操作,下标越界。

使用的版本是 3.3.0