Open xaicrew opened 5 years ago
Epoch 1에서 70정도 나와서 좋아하고 있었는데
Multi-GPU로 트레이닝 하다가 Epoch 1에서 GPU limit (2) 때문에 5시 남기고 submit을 위해 눈물을 머금고 nsml stop
할 수 밖에 없었습니다ㅜㅜ 도와주세요
번거롭겠지만 심혈을 기울여 407번 NSML에 올린 정성을 생각해서라도 한번 봐주시면 좋겠습니다 ㅜㅜ
여기는 꼭 구제해줘야 할것 같네요!! 제가 다 안타깝네요 ㅜㅜ
저도 해당 문제 고민 했던 사람으로써 이정도면 완벽하네요!!
ㅠㅠ
main.py
내부의 infer
에서
get_feature_from_librosa
--> get_feature
로 바꾸면 해결될 것 같습니다. ㅜㅜ
Custom 라이브러리도 사용하고 있어서 거기서 에러가 있을 수도 있습니다.
Informations
CLI
WEB
What is your NSML login ID? xaicrew
What is name of session in problem? (bug message or screenshot) team_261/20_scls_stt/407
Steps to reproduce the problem
valid dataset에서는 CRR이 60~70 정도로 나오는 것으로 예상되나 inference 결과는 0.0027이 나옵니다.
What is the expected behavior?
valid dataset에서 debugging으로 batch(size = 64)마다 1 pair (ref, hyp) print되게 한 random한 output들입니다.
저기 output된 결과들에서 CRR을 계산해도 76.685012정도 나옵니다. valid dataset 전체에 대해 계산한 결과도 66.2대 점수로 나오고있습니다.
4시간 training동안 epoch 두번 돌았는데 epoch 0 에서 CRR이 30점대, epoch 1에서 60점대로 나오는 것으로 보아 얼마든지 더 높은 점수가 나왔을 수 있는 모델이었습니다. (충분한 시간을 training 한다면 8-90점대 가능할 것으로 보입니다.)
inference 과정을 debugging 할 수 없어 이렇게 질문드립니다.
detail
Suggested solutions