Closed Quincy1994 closed 5 years ago
您好,在您的代码中pgendense层似乎并没有在train的过程得到学习,而是直接用于预测predict,这部分代码是否有遗漏? p = pgen_dense(decoder_pgen)
你好,是这样的,这一步操作的输入decoder_pgen是在之前的attention过程里得到的,而attention的参数会得到学习: decoder_outputs, decoder_alphas, decoder_pgen = time_attention([encoder_outputs, decoder_outputs]) 然后你提到的pgen_dense层只是进行了一次softmax操作
您好,在您的代码中pgendense层似乎并没有在train的过程得到学习,而是直接用于预测predict,这部分代码是否有遗漏? p = pgen_dense(decoder_pgen)