hsuanchia / Image-caption

MIT License
2 stars 0 forks source link

Seq2seq image caption #11

Open hsuanchia opened 3 years ago

hsuanchia commented 3 years ago

現在的model

hsuanchia commented 3 years ago

要把training data 數量變多 現在只有用500張圖片

jiazheng0609 commented 3 years ago

課堂上報告的會噴人話版本,也有上傳上來 GitHub

hsuanchia commented 3 years ago

現在進度:在RAM不爆掉的情況下,可以使用5000個caption(val_2017)做training,loss function使用sparse_categorical_crossentropy,有使用pretrain好的word vector -- GloVe。 在這樣的條件下,train一個epochs需要2s,train 100 epochs最終loss可以達到0.1966。 如果要使用train_2017,則train_2017的annotation總共有26850個詞(加上start end 的 token),如果我取出現頻率超過10的才算做voc,則會剩下7412個詞(加上start end 的 token) 問題:如果我們使用feature map(14,14,512) 做Flatten再過dense再丟進LSTM,則出來的預測結果不是人話,Why?

hsuanchia commented 3 years ago

Val2017的前25000筆資料已經處理好,我把它包成.pkl以後做validation應該從這裡load就好了