nndl / solutions

《神经网络与深度学习》课后习题答案-分享讨论
690 stars 80 forks source link

习题6-4 #51

Open simo-an opened 2 years ago

simo-an commented 2 years ago

题目

习题6-4 推导LSTM网络中参数的梯度, 并分析其避免梯度消失的效果.

image

其中 image

image image

解答

image

如何理解这三个门?

假设我们需要连续考 高等数学 =》 线性代数 =》 概率论 等几门学科 h1 表示考完高等数学时候的状态, c1表示考高等数学时大脑的记忆

现在需要考 线性代数 了

  1. 由于 高等数学 和 线性代数 既有相关也有无关的内容,所以使用 f2 来控制对于高等数学知识需要保留的内容
  2. 可能老师在考线性代数前给划了重点,使用 i2 来控制我们在课堂上学习的整本书的知识还有哪些是考试所必备的 由1,2我们可以得到考线性代数时候大脑记忆的内容 c2

故有: 𝒄2 = 𝒇2 ⊙ 𝒄1 + 𝒊2 ⊙ 𝒄‘2

而我们拿到考试试卷的时候,发现所要使用的知识就更少了,所以使用 o2 来决定现有记忆中的多少来进行答题,从而得到最终的状态。

故有:𝒉2 = 𝒐2 ⊙ tanh (𝒄2)

以参数Wf为例求其梯度

IMG_20220104_164951

注: 𝛿𝑡,𝑘 的值可再斟酌(估计是错的,后续再仔细推到,不忍删去)

为什么能避免梯度消失问题?

LSTM 通过记忆单元 C 来缓解梯度消失问题

由于 image

得到 image