效果不理想，是要更新词库吗？

lcdevelop / ChatBotCourse

自己动手做聊天机器人教程

https://www.lcsays.com

MIT License

5.91k stars 1.69k forks source link

效果不理想，是要更新词库吗？ #14

Open ahumoon7421 opened 6 years ago

ahumoon7421 commented 6 years ago

Loading model cost 1.286 seconds. Prefix dict has been built succesfully. 2017-12-27 14:20:24.445937: I C:\tf_jenkins\home\workspace\rel-win\M\windows\PY\ 35\tensorflow\core\platform\cpu_feature_guard.cc:137] Your CPU supports instruct ions that this TensorFlow binary was not compiled to use: AVX AVX2

hello WARN：词汇不在服务区你好 WARN：词汇不在服务区呵呵我哈哈就早 WARN：词汇不在服务区

HCIS2020 commented 6 years ago

question 和 answer就各有1000个样本，所以效果比较有限

这个版本采用的是TF的seq2seq函数，目前应该有one-hot的的问题吧，支持Word2Vector的版本什么时候更新

cfso2475 commented 6 years ago

感觉是这个参数的问题。 min_freq = 10

默认的值为10导致好多词没有进词表，也就是训练的序列本身和question以及answer的文本差异比较大。按照现有的1000条文本，词频都不高，临时改成1可能好一些。

alige32 commented 6 years ago

一个是楼上说的min_freq的问题，2、3效果会比较好，1太多低频词反而有副作用。另外size可根据过滤后词总数适当调高，基于这1000条样本的话10、12效果都是不错的。

Z1hgq commented 5 years ago

1000条3的效果比较好