qhduan / just_another_seq2seq

Just another seq2seq repo
329 stars 97 forks source link

如何训练自己搜集的语料 #14

Open ZNZHL opened 6 years ago

ZNZHL commented 6 years ago

本人搜集了一些语料,格式是txt,形式是(问题a回答b问题c回答d......,分行),不知道如何训练?请大神解答

yaleimeng commented 6 years ago

训练数据的格式(扩展名为.conv): E M 你好/,/在/吗 M 请/向/我/提问/吧 E M 好厉害/~ M 我/师父/教/得/好 E 具体操作步骤在chatbot目录下有说明。依次执行extract、train、test即可。

RaymondJSu commented 5 years ago

@yaleimeng 请问自己蒐集的没有到百万条也可以进行训练吗? 是哪边的参数要做修改呢?

yaleimeng commented 5 years ago

@axa000 没有百万条也不要紧,但至少还是要几万条级别。接触时间比较早,只要语料处理好了,应该example是能直接跑起来的。 不过这种seq2seq方案只适合对应答正确性、合理性要求比较低的闲聊场景。目前在语句通顺等方面还有不少局限。

RaymondJSu commented 5 years ago

@yaleimeng 谢谢你的回复! 确实训练完常常答非所问 但gitgub上好像找不到更好的中文机器人?