Open simo-an opened 2 years ago
习题6-4 推导LSTM网络中参数的梯度, 并分析其避免梯度消失的效果.
其中
假设我们需要连续考 高等数学 =》 线性代数 =》 概率论 等几门学科 h1 表示考完高等数学时候的状态, c1表示考高等数学时大脑的记忆
现在需要考 线性代数 了
故有: 𝒄2 = 𝒇2 ⊙ 𝒄1 + 𝒊2 ⊙ 𝒄‘2
而我们拿到考试试卷的时候,发现所要使用的知识就更少了,所以使用 o2 来决定现有记忆中的多少来进行答题,从而得到最终的状态。
故有:𝒉2 = 𝒐2 ⊙ tanh (𝒄2)
注: 𝛿𝑡,𝑘 的值可再斟酌(估计是错的,后续再仔细推到,不忍删去)
LSTM 通过记忆单元 C 来缓解梯度消失问题
由于
得到
题目
习题6-4 推导LSTM网络中参数的梯度, 并分析其避免梯度消失的效果.
其中![image](https://user-images.githubusercontent.com/38021707/148030800-a345f422-e5c4-4231-bdb8-069065e33ece.png)
解答
如何理解这三个门?
假设我们需要连续考 高等数学 =》 线性代数 =》 概率论 等几门学科 h1 表示考完高等数学时候的状态, c1表示考高等数学时大脑的记忆
现在需要考 线性代数 了
故有: 𝒄2 = 𝒇2 ⊙ 𝒄1 + 𝒊2 ⊙ 𝒄‘2
而我们拿到考试试卷的时候,发现所要使用的知识就更少了,所以使用 o2 来决定现有记忆中的多少来进行答题,从而得到最终的状态。
故有:𝒉2 = 𝒐2 ⊙ tanh (𝒄2)
以参数Wf为例求其梯度
注: 𝛿𝑡,𝑘 的值可再斟酌(估计是错的,后续再仔细推到,不忍删去)
为什么能避免梯度消失问题?
LSTM 通过记忆单元 C 来缓解梯度消失问题
由于![image](https://user-images.githubusercontent.com/38021707/148034098-0cdae720-ca8d-415c-b3bf-2b91d6464432.png)
得到![image](https://user-images.githubusercontent.com/38021707/148034122-90f0c13c-8728-41be-acc9-f31f5b201fb2.png)