jiangnanboy / jcorrector

jcorrector 中文文本纠错工具, Text Error Correction Tool,Spelling Check
Apache License 2.0
55 stars 14 forks source link

你好,人民日报2014的训练集是什么格式 #7

Open xiaohanjun20 opened 1 year ago

xiaohanjun20 commented 1 year ago

我对比了pycorrector的数据集,他的数据集有提到2.8G的zh_giga.no_cna_cmn.prune01244.klm文件,另一个就是效果不太好的人民日报的2014版数据集,但是他的事klm格式,而你是一个bin格式。

但内容我看了下,你这个bin是纯文本,能详细的指导下吗?

xiaohanjun20 commented 1 year ago

不好意思,你那个bin应该是n-gram的文件,请问你下,n-gram的训练数据是2014的是不?

jiangnanboy commented 1 year ago

是的