sooftware / kospeech

Open-Source Toolkit for End-to-End Korean Automatic Speech Recognition leveraging PyTorch and Hydra.
https://sooftware.github.io/kospeech/
Apache License 2.0
605 stars 192 forks source link

conformer train 시 loss nan #134

Closed miziworld closed 3 years ago

miziworld commented 3 years ago

안녕하세요,

transformer로 훈련시키다가 conformer-large 모델로 바꿔서 훈련시켜보려고 하는데 batch_size를 1 말고 4,8..등으로 잡았을때는 loss 값이 nan이 나오고 batch_size를 1로 잡았을 때는 대부분의 loss가 0으로 뜨는데 이러한 현상이 트레이닝이 제대로 되고있지 않은것같아서 문의드립니다.

sooftware commented 3 years ago

configuration과 training log를 첨부해주시겠어요?

miziworld commented 3 years ago

image conformer 모델들은 다 loss가 제대로 나오지 않네요 ㅠㅠ image

supervised_trainer.py에서 batch_size =1 로 잡았습니다

sooftware commented 3 years ago

의심되는 부분을 수정했습니다. 또 loss가 이상하면 코멘트 적어주세요.