如何训练自己搜集的语料

qhduan / just_another_seq2seq

Just another seq2seq repo

329 stars 97 forks source link

Open ZNZHL opened 6 years ago

ZNZHL commented 6 years ago

本人搜集了一些语料，格式是txt，形式是（问题a回答b问题c回答d......，分行），不知道如何训练？请大神解答

yaleimeng commented 6 years ago

训练数据的格式（扩展名为.conv）： E M 你好/，/在/吗 M 请/向/我/提问/吧 E M 好厉害/~ M 我/师父/教/得/好 E 具体操作步骤在chatbot目录下有说明。依次执行extract、train、test即可。

RaymondJSu commented 5 years ago

@yaleimeng 请问自己蒐集的没有到百万条也可以进行训练吗? 是哪边的参数要做修改呢?

yaleimeng commented 5 years ago

@axa000 没有百万条也不要紧，但至少还是要几万条级别。接触时间比较早，只要语料处理好了，应该example是能直接跑起来的。不过这种seq2seq方案只适合对应答正确性、合理性要求比较低的闲聊场景。目前在语句通顺等方面还有不少局限。

RaymondJSu commented 5 years ago

@yaleimeng 谢谢你的回复! 确实训练完常常答非所问但gitgub上好像找不到更好的中文机器人?