stockmarkteam / bert-book

「BERTによる自然言語処理入門: Transformersを使った実践プログラミング」サポートページ
MIT License
259 stars 80 forks source link

P.25 h_i -> y_i #4

Open tomohideshibata opened 3 years ago

tomohideshibata commented 3 years ago

P.25の説明で、何箇所かある出力y_iはすべてh_iかと思います。

omitakahiro commented 3 years ago

コメントありがとうございました。これは、現状のままで正しい認識です。 h_i は時刻 i でのLSTMの出力を表しており、y_i は LSTMでの処理の過程で現れるp25の一番上の式に従う変数です(図2.5bですと y_i はRNNと書いてあるノードの出力に対応しています)。

p25の一番上の式は(simple) RNNの各時刻でのオペレーションと同一なので、ここでは、LSTMには「1つのRNN」を含み、そのRNNは y_i を出力するという意図でしたが、表現が紛らわしかったのかもしれません。今後の修正の参考にさせていただければと思います。

どうもありがとうございました。

tomohideshibata commented 3 years ago

コメントありがとうございます。 よく見直すと式的には誤っていないことがわかりました。ただ、LSTMの中にRNNが入っているという解釈はあまり普通ではないことと、P.22に導入されているh'のことをyと書くことが多いので、少しわかりにくいかなと思いました。

omitakahiro commented 3 years ago

どうもありがとうございます。少しわかりづらかったという点に関しては認識いたしました。今後の参考にさせていただければと思います。