Closed martin3252 closed 4 years ago
Hi, 謝謝提供這個很好的代碼,我遇到了以下的問題,想請教你
1.當我把albert_base 換成 albert_xlarge時, 在model.py檔中的forword function再取出hidden states時,從原來的 [64,128,768] 變成 [128,2048],將會導致給self.lstm的input維度錯誤,這個是albert模型本身的問題嗎? all_hidden_states, all_attentions = embeddings[-2:] embeddings= all_hidden_states[-2] 2.於是我把 embeddings= all_hidden_states[-2]改成 embeddings=all_hidden_states後維度變成[64,128,2048] 程式可以運行,loss下降 eval結果都是0 ,我是不是哪裡有使用錯誤呢?
all_hidden_states, all_attentions = embeddings[-2:] embeddings= all_hidden_states[-2]
embeddings= all_hidden_states[-2]
embeddings=all_hidden_states
問題已解決,需要在 albert_xlarge_zh.json中加入output_hidden及 attention後轉換成pytorch版!!
Hi, 謝謝提供這個很好的代碼,我遇到了以下的問題,想請教你
1.當我把albert_base 換成 albert_xlarge時, 在model.py檔中的forword function再取出hidden states時,從原來的 [64,128,768] 變成 [128,2048],將會導致給self.lstm的input維度錯誤,這個是albert模型本身的問題嗎?
all_hidden_states, all_attentions = embeddings[-2:] embeddings= all_hidden_states[-2]
2.於是我把embeddings= all_hidden_states[-2]
改成embeddings=all_hidden_states
後維度變成[64,128,2048] 程式可以運行,loss下降 eval結果都是0 ,我是不是哪裡有使用錯誤呢?