hit-computer / SC-LSTM

Implement SC-LSTM model for text generation in control of words, in Python/TensorFlow
88 stars 31 forks source link

对训练的损失函数(cost Funtcion) 的疑问 #14

Open zhaoyunED opened 6 years ago

zhaoyunED commented 6 years ago

您好,关于训练使用的损失函数,您是不是没有按照论文中给出损失函数来实现? 我看您是直接使用一个tensorflow 内置的方法 sequence_loss_by_example.
如果是我没注意,能否告诉我你是在哪里改进的损失函数? 如果没有的话,能否给改code实现一下哈? 按照你的这个写法,对我来说感觉不太好改code来实现论文的损失函数.

hit-computer commented 6 years ago

@zhaoyunED 损失函数应该是一致,文本生成任务的损失函数大多都是交叉熵

zhaoyunED commented 6 years ago

http://www.emnlp2015.org/proceedings/EMNLP/pdf/EMNLP199.pdf 论文中的3.4 training部分提出了针对SC-LSTM的loss fucntion. 这也是这篇论文的一个很重要的点吧。

hit-computer commented 6 years ago

@zhaoyunED 刚刚仔细看了一下,我们在实现模型时确实是对损失函数进行了简化。原论文中损失函数由三部分构成(第一部分是交叉熵),剩下两部分在我们的代码中暂未实现。后续会考虑抽空完善损失函数的。感谢提出问题 :)

zhaoyunED commented 6 years ago

好的,我本人也是tensorflow写得少, 改起别人的code比较吃力。也感谢你的积极回复,更新损失函数之后训练的效果应该会好很多。