sooftware / kospeech

Open-Source Toolkit for End-to-End Korean Automatic Speech Recognition leveraging PyTorch and Hydra.
https://sooftware.github.io/kospeech/
Apache License 2.0
605 stars 192 forks source link

학습 후 직접 녹음한 음성에 대한 inference 가 되지 않습니다. #179

Closed J0Ooo closed 1 year ago

J0Ooo commented 1 year ago

한국어 발화음성 데이터를 이용해 학습 후 0.25의 성능을 갖는 모델을 구현했습니다. 학습 후 제공되는 평가 데이터를 통해 inference해보았을 때는 결과가 정상적으로 출력 되었지만, 직접 녹음한 음성으로 해보았을 때 [음 아 아] 이런 식의 결과가 나옵니다. 학습 과정에서의 문제는 아닌 듯 한데, csv파일의 경로 설정 등의 문제인 건지 궁금합니다. 혹시 같은 이슈를 겪었던 분이 계시다면 조언 부탁 드립니다.

sooftware commented 1 year ago

평가 데이터로 inference는 되는데, 직접 녹음한 음성이 되지 않으시면 아마 음성 파일 포맷이 다르거나 말씀하신듯이 경로 설정이 잘못됐을 수 있을 것 같습니다.

J0Ooo commented 1 year ago

말씀 주신 대로 음성 파일 포맷이 달랐던 문제 같아서 확인해보니 샘플링 주파수가 16000Hz이어야 하는데 제가 녹음한 음성 파일의 주파수는 44100Hz로 달랐던 것이 문제였습니다..! audacity툴을 이용해서 샘플링 주파수를 바꿔주고 스테레오-모노 와 같은 설정도 동일하게 맞춰주어 해결했습니다. (모노, 16000Hz로 세팅) 기본적인 사항을 고려조차 안하고 있었네요,,정말 감사드립니다 :-)