DLY_LSTM中hx的定義 - Githubissues

@hsintinl ,

根據pytroch的LSTM document與source code，input的hx代表(hidden_state, cell state)。當有給值時，則以input的值為主，如果沒有的話h_0跟c_0則以zero vector initial即可（你也可嘗試其他方法）。

回到你的問題，hx確實是ht與ct的tuple。當沒給的時候你要自己initialize。第二個timestep以後的h_t, c_t既要留存在ＬＳＴＭ中（你還要算第三個timestep，第四個...等），也要output出去(h1, (h1, c1))。

順帶一提，在我們這個case裡，只有一層ＬＳＴＭ(縱向，同個timestep來看)，output會等於hidden state，但在其他的case裡不一定。如果層數超過1，output只需回傳最後一層ＬＳＴＭ的hidden。

但在這次作業可以從簡就好（同架構圖），(h1, (h1, c1))，這個就是output size。更多細節請見ＬＳＴＭ document，也歡迎你再提出來討論。

ＴＡ

2018-summer-DL-training-program / Lab-2-Image-Captioning