zqhZY / _rasa_chatbot

A Chinese task oriented chatbot in IVR(Interactive Voice Response) domain, implement by rasa. This is a demo with toy dataset, more data should be added for performance.
496 stars 228 forks source link

MITIE 模型训练数据 #3

Open MoxinC opened 6 years ago

MoxinC commented 6 years ago

我在您的博客了解到“项目链接里包含了用真实电信业务数据训练的total_word_feature_extractor.dat”,请问训练用的数据可以从哪里获取到吗?

zqhZY commented 6 years ago

你好,一般真实业务数据没有太多开源的数据,我这里训练的.dat使用的内部数据,不方便开放。不过您可以试一试使使用维基百科的语料训练是否可以满足您的需要,维基的语料一般可以满足基本的需要,做初始版本线上收集语料。另外您也可以看一下这个链接有没有需要的资源 https://github.com/crownpku/awesome-chinese-nlp

MoxinC commented 6 years ago

👌,感谢回答。

ibmxiang commented 6 years ago

大佬,请问数据格式是什么样子的文件,能给个例子吗?