Audio의 Feature 뽑는 것에 대하여

sooftware / kospeech

Open-Source Toolkit for End-to-End Korean Automatic Speech Recognition leveraging PyTorch and Hydra.

https://sooftware.github.io/kospeech/

Apache License 2.0

603 stars 191 forks source link

Closed ghost closed 3 years ago

ghost commented 3 years ago

안녕하세요, Kospeech 코드를 오랜만에 보다가 질문드릴 것이 있어 질문드려요.

kospeech/data/audio/feature.py에서 audio의 feature를 뽑을 때, mel-spectrogram 뽑은 후에 amplitude_to_db를 쓰셨더라구요.

이 부분이 혹시 power_to_db로 바뀌어야하는 것이 아닌지요?

혹시 의도적으로 전자를 쓰셨다면 그 이유가 궁금합니다.

Librosa 예제에서도 plot 시에 power-to_db를 쓰고 있습니다.

감사합니다.

sooftware commented 3 years ago

오류 지적해주셔서 감사합니다. 수정해서 반영했습니다 :)