Open MoxinC opened 6 years ago
我在您的博客了解到“项目链接里包含了用真实电信业务数据训练的total_word_feature_extractor.dat”,请问训练用的数据可以从哪里获取到吗?
你好,一般真实业务数据没有太多开源的数据,我这里训练的.dat使用的内部数据,不方便开放。不过您可以试一试使使用维基百科的语料训练是否可以满足您的需要,维基的语料一般可以满足基本的需要,做初始版本线上收集语料。另外您也可以看一下这个链接有没有需要的资源 https://github.com/crownpku/awesome-chinese-nlp
👌,感谢回答。
大佬,请问数据格式是什么样子的文件,能给个例子吗?
我在您的博客了解到“项目链接里包含了用真实电信业务数据训练的total_word_feature_extractor.dat”,请问训练用的数据可以从哪里获取到吗?