sooftware / kospeech

Open-Source Toolkit for End-to-End Korean Automatic Speech Recognition leveraging PyTorch and Hydra.
https://sooftware.github.io/kospeech/
Apache License 2.0
605 stars 192 forks source link

Fix subword training #138

Closed hwiorn closed 3 years ago

hwiorn commented 3 years ago

OUTPUT_UNIT이 Subword일 때, kson 전처리 단계와 모델 학습시 에러가 발생하는 부분을 수정하였습니다.

sentencepiece의 경우 unk-id가 생략된 경우, 에러가 발생하여 unk-id를 추가하였습니다.

subword에서는 blank-id를 사용하지 않기 때문에, 이 부분을 unk-id와 동일하게 처리하였는데, 이 부분은 검토가 필요합니다.

sooftware commented 3 years ago

현재 KoSpeech2를 개발 중입니다. subword 관련 버그 및 blank-id 처리 역시 모두 개발이 끝났는데, 모듈들을 테스트해보고 있습니다. 테스트해보고 정상작동 확인되는대로 제가 업데이트 해놓겠습니다.

hwiorn commented 3 years ago

네, 알겠습니다. 이 PR은 닫도록 하겠습니다.