Open xiaohanjun20 opened 1 year ago
我对比了pycorrector的数据集,他的数据集有提到2.8G的zh_giga.no_cna_cmn.prune01244.klm文件,另一个就是效果不太好的人民日报的2014版数据集,但是他的事klm格式,而你是一个bin格式。
但内容我看了下,你这个bin是纯文本,能详细的指导下吗?
不好意思,你那个bin应该是n-gram的文件,请问你下,n-gram的训练数据是2014的是不?
是的
我对比了pycorrector的数据集,他的数据集有提到2.8G的zh_giga.no_cna_cmn.prune01244.klm文件,另一个就是效果不太好的人民日报的2014版数据集,但是他的事klm格式,而你是一个bin格式。
但内容我看了下,你这个bin是纯文本,能详细的指导下吗?