Open hsuanchia opened 3 years ago
要把training data 數量變多 現在只有用500張圖片
課堂上報告的會噴人話版本,也有上傳上來 GitHub
現在進度:在RAM不爆掉的情況下,可以使用5000個caption(val_2017)做training,loss function使用sparse_categorical_crossentropy,有使用pretrain好的word vector -- GloVe。 在這樣的條件下,train一個epochs需要2s,train 100 epochs最終loss可以達到0.1966。 如果要使用train_2017,則train_2017的annotation總共有26850個詞(加上start end 的 token),如果我取出現頻率超過10的才算做voc,則會剩下7412個詞(加上start end 的 token) 問題:如果我們使用feature map(14,14,512) 做Flatten再過dense再丟進LSTM,則出來的預測結果不是人話,Why?
Val2017的前25000筆資料已經處理好,我把它包成.pkl以後做validation應該從這裡load就好了
現在的model