qhduan / just_another_seq2seq

Just another seq2seq repo
329 stars 97 forks source link

训练出来的模型预测的时候只能出两种结果 #12

Open charles0-0 opened 6 years ago

charles0-0 commented 6 years ago

param_json如下: { "bidirectional": true, "use_residual": false, "use_dropout": false, "time_major": false, "cell_type": "lstm", "depth": 2, "attention_type": "Bahdanau", "hidden_units": 128, "optimizer": "adam", "learning_rate": 0.001, "embedding_size": 300 }

结果:

输入: ['', '好', '你'] x [[ 3 1625 739]] xl [3] Greedy_pred [[2253 2599 739 3668 3]] 输出: 我是你的

输入: ['', '哪', '在', '你'] x [[ 3 1291 1485 739]] xl [4] Greedy_pred [[2253 2599 739 3668 3]] 输出: 我是你的

输入: ['', '字', '名', '么', '什', '叫', '你'] x [[ 3 1734 1166 604 665 1142 739]] xl [7] Greedy_pred [[ 30 372 30 3]] 输出: =。=

输入: ['', '吗', '友', '朋', '个', '交', '能', '们', '我'] x [[ 3 1175 1122 2664 587 650 4306 691 2253]] xl [9] Greedy_pred [[ 30 372 30 3]] 输出: =。=

==我尝试过100epoch、5epoch、2epoch 都是这样的结果。咋回事,请大神指教。

dingjibang commented 6 years ago

是这样的,同求?说什么基本都是在复读机

charlesXu86 commented 5 years ago

我也是两种结果

charlesXu86 commented 5 years ago

我找到原因了,一方面是要把参数调一下,还有一方面是要把训练的时候那个shuffle放开。

qhduan commented 5 years ago

我找到原因了,一方面是要把参数调一下,还有一方面是要把训练的时候那个shuffle放开。

感谢尝试,如果有兴趣可以分享你的发现或提交一个PR

charlesXu86 commented 5 years ago

我找到原因了,一方面是要把参数调一下,还有一方面是要把训练的时候那个shuffle放开。

感谢尝试,如果有兴趣可以分享你的发现或提交一个PR

我把语料换成了小黄鸡的,参数调整了一下,效果有所提升,但是还是不尽人意。还有,博主,你能把en2zh的数据集分享一下吗?