Seq2seq image caption - Githubissues

hsuanchia commented 3 years ago

現在的model

hsuanchia commented 3 years ago

要把training data 數量變多現在只有用500張圖片

jiazheng0609 commented 3 years ago

課堂上報告的會噴人話版本，也有上傳上來 GitHub

hsuanchia commented 3 years ago

現在進度：在RAM不爆掉的情況下，可以使用5000個caption(val_2017)做training，loss function使用sparse_categorical_crossentropy，有使用pretrain好的word vector -- GloVe。在這樣的條件下，train一個epochs需要2s，train 100 epochs最終loss可以達到0.1966。如果要使用train_2017，則train_2017的annotation總共有26850個詞(加上start end 的 token)，如果我取出現頻率超過10的才算做voc，則會剩下7412個詞(加上start end 的 token) 問題：如果我們使用feature map(14,14,512) 做Flatten再過dense再丟進LSTM，則出來的預測結果不是人話，Why?

hsuanchia commented 3 years ago

Val2017的前25000筆資料已經處理好，我把它包成.pkl以後做validation應該從這裡load就好了

hsuanchia / Image-caption

Seq2seq image caption #11