deepcs233 / jieba_fast

Use C Api and Swig to Speed up jieba 高效的中文分词库
MIT License
631 stars 75 forks source link

您好,关于jieba分词的结果,和jieba_fast分词结果不同的问题。 #22

Closed huwen2117 closed 4 years ago

huwen2117 commented 4 years ago

原版jieba中,calc()函数的动态规划实现的最后一步,使用max(score,end_index)。这样可以实现,如果存在相同分数的分词路径时,结尾索引大的词被分出来。

这里的实现略有不同。 https://github.com/deepcs233/jieba_fast/blob/5f23644ef39e89facb6b5aaf8ab40adbb6c1a305/jieba_fast/source/jieba_fast_functions_wrap_py3.i#L149 149:if(fq_last > max_freq) 。 这个实现,在分数相同时,靠前的词会被优先分出。

不知您还是否维护这个项目了,如果您看到了这个情况,请协助,谢谢!

deepcs233 commented 4 years ago

最近有些忙,你方便改一下提交PR吗

huwen2117 commented 4 years ago

好的,感谢信任