对训练的损失函数(cost Funtcion) 的疑问

hit-computer / SC-LSTM

Implement SC-LSTM model for text generation in control of words, in Python/TensorFlow

88 stars 31 forks source link

对训练的损失函数(cost Funtcion) 的疑问 #14

Open zhaoyunED opened 6 years ago

zhaoyunED commented 6 years ago

您好，关于训练使用的损失函数，您是不是没有按照论文中给出损失函数来实现？我看您是直接使用一个tensorflow 内置的方法 sequence_loss_by_example.
如果是我没注意，能否告诉我你是在哪里改进的损失函数？如果没有的话，能否给改code实现一下哈? 按照你的这个写法，对我来说感觉不太好改code来实现论文的损失函数.

hit-computer commented 6 years ago

@zhaoyunED 损失函数应该是一致，文本生成任务的损失函数大多都是交叉熵

zhaoyunED commented 6 years ago

http://www.emnlp2015.org/proceedings/EMNLP/pdf/EMNLP199.pdf 论文中的3.4 training部分提出了针对SC-LSTM的loss fucntion. 这也是这篇论文的一个很重要的点吧。

hit-computer commented 6 years ago

@zhaoyunED 刚刚仔细看了一下，我们在实现模型时确实是对损失函数进行了简化。原论文中损失函数由三部分构成（第一部分是交叉熵），剩下两部分在我们的代码中暂未实现。后续会考虑抽空完善损失函数的。感谢提出问题 :)

zhaoyunED commented 6 years ago

好的，我本人也是tensorflow写得少, 改起别人的code比较吃力。也感谢你的积极回复，更新损失函数之后训练的效果应该会好很多。