Open QingGo opened 5 years ago
用一个分词库训练出来的模型肯定是只适用于该分词库的,可以理解成分词模型也是整个模型的一部分,所以你这种尝试理论上就不太对。然后你训练的模型泛化性可能也不强,我看了一下你的example里的差异的地方,感觉效果差不多,谈不上谁好谁坏。 目前产生差异的问题估计主要是自定义词典的问题,有新的进展我会update上来。
多谢回复~ 你做的jieba_fast分词效率的确是比原版高不少。只是本来我还想着偷个懒无缝迁移的,看到还是得重新训练一下模型了。
用一个分词库训练出来的模型肯定是只适用于该分词库的,可以理解成分词模型也是整个模型的一部分,所以你这种尝试理论上就不太对。然后你训练的模型泛化性可能也不强,我看了一下你的example里的差异的地方,感觉效果差不多,谈不上谁好谁坏。 目前产生差异的问题估计主要是自定义词典的问题,有新的进展我会update上来。
您好,请问jieba_fast和jieba 在posseg.cut()上有没有对比过运行时间?是否会更高效呢?
长文本分词: jieba_fast: 7m15.049s jieba: 7m16.053s
长文本分词: jieba_fast: 7m15.049s jieba: 7m16.053s
加速接口仅支持jieba.lcut, jieba.lcut
作者你好。我在使用jieba_fast的时候发现一个问题,就是在使用自定义词典,jieba_fast的分词结果会和jieba的分词结果有所不同。系统版本为ubuntu18.04,库的版本信息如下:
复现代码如下:
输出如下:
其中词典文件来源于tensorhub上的一个nnlm中文预训练词向量模型,我把所有词的词频设为1并放入word_list_nnlm_128.txt文件中。我把它上传到百度网盘了。 链接:https://pan.baidu.com/s/1C-z2mJl6y8qRZEFO1_cqeA 提取码:s9ia
jieba-fast的分词结果和jieba的确差异不大。然而我通过原版jieba分词库在其分词结果的基础上训练了一个情感倾向判断模型,可能是我的模型不够稳健的原因,两个库对这句话的分词结果在模型中预测得到的情感倾向还是有明显差异的,jieba为正面倾向0.9,jieba-fast为正面倾向0.6。