bojone / word-discovery

速度更快、效果更好的中文新词发现
509 stars 103 forks source link

速度更快、效果更好的中文新词发现

复现了之前的《【中文分词系列】 8. 更好的新词发现算法》中的新词发现算法。

实测

在经过充分训练的情况下,用bakeoff2005的pku语料进行测试,能得到0.765的F1,优于ICLR 2019的《Unsupervised Word Discovery with Segmental Neural Language Models》的0.731

(注:这里是为了给效果提供一个直观感知,比较可能是不公平的,因为我不确定这篇论文中的训练集用了哪些语料。但我感觉在相同时间内本文算法会优于论文的算法,因为直觉论文的算法训练起来会很慢。作者也没有开源,所以有不少不确定之处,如有错谬,请读者指正。)

使用

使用前务必通过

chmod +x count_ngrams

赋予count_ngrams可执行权限,然后修改word_discovery.py适配自己的数据,最后执行

python word_discovery.py

更新

交流

QQ交流群:67729435,微信群请加机器人微信号spaces_ac_cn