Closed J0Ooo closed 1 year ago
평가 데이터로 inference는 되는데, 직접 녹음한 음성이 되지 않으시면 아마 음성 파일 포맷이 다르거나 말씀하신듯이 경로 설정이 잘못됐을 수 있을 것 같습니다.
말씀 주신 대로 음성 파일 포맷이 달랐던 문제 같아서 확인해보니 샘플링 주파수가 16000Hz이어야 하는데 제가 녹음한 음성 파일의 주파수는 44100Hz로 달랐던 것이 문제였습니다..! audacity툴을 이용해서 샘플링 주파수를 바꿔주고 스테레오-모노 와 같은 설정도 동일하게 맞춰주어 해결했습니다. (모노, 16000Hz로 세팅) 기본적인 사항을 고려조차 안하고 있었네요,,정말 감사드립니다 :-)
한국어 발화음성 데이터를 이용해 학습 후 0.25의 성능을 갖는 모델을 구현했습니다. 학습 후 제공되는 평가 데이터를 통해 inference해보았을 때는 결과가 정상적으로 출력 되었지만, 직접 녹음한 음성으로 해보았을 때 [음 아 아] 이런 식의 결과가 나옵니다. 학습 과정에서의 문제는 아닌 듯 한데, csv파일의 경로 설정 등의 문제인 건지 궁금합니다. 혹시 같은 이슈를 겪었던 분이 계시다면 조언 부탁 드립니다.