sooftware / kospeech

Open-Source Toolkit for End-to-End Korean Automatic Speech Recognition leveraging PyTorch and Hydra.
https://sooftware.github.io/kospeech/
Apache License 2.0
605 stars 192 forks source link

Pre-train Models 테스트 관련 문의 드립니다. #69

Closed kimsunglyul closed 3 years ago

kimsunglyul commented 3 years ago

안녕하세요 문의사항이 있어서 질문 드립니다.

63 를 참조하고 [UPDATED] Pre-train Models(las_epoch1_cer_19.pt)를 다운받아

테스트 하는데 결과값이 알수없는 문장으로 추출 되어 나옵니다.

실행 python inference.py --model_path=las_epoch1_cer_19.pt --audio_path=KsponSpeech_000001.pcm KsponSpeech_000001.zip

테스트 데이터는 https://aihub.or.kr/aidata/105/download에서 받은 KsponSpeech음성입니다.

정답 [아/ 몬 소리야, 그건 또. b/] 추출 ['그어 거고 이가거까기 그는나고제이다 서어보 야근게']

이전 issue 답해 주신걸 보니 feature_vector를 reverse 해보라고 하셔서 inference.py 파일을 아래와 같이 수정하였습니다. def parse_audio(audio_path: str, del_silence: bool = False, audio_extension: str = 'pcm') -> Tensor: signal = load_audio(audio_path, del_silence, extension=audio_extension) print(signal) feature_vector = torchaudio.compliance.kaldi.fbank( waveform=Tensor(signal).unsqueeze(0), num_mel_bins=80, frame_length=20, frame_shift=10, window_type='hamming'

).transpose(0, 1).numpy()

feature_vector -= feature_vector.mean() feature_vector /= np.std(feature_vector) feature_vector = feature_vector[:, ::-1] feature_vector = torch.FloatTensor(np.ascontiguousarray(np.swapaxes(feature_vector, 0, 1)))

return feature_vector 수정후에도 정상적으로 추출되지 않는것 같습니다.

이상입니다. 답변 부탁드리겠습니다.

감사합니다.

sooftware commented 3 years ago

네 안녕하세요. 저희도 현재 모델이 추론을 정상적으로 하지 못하는 것 같아 문제 파악중에 있습니다. ㅠ.ㅠ 파악되는대로 수정하겠습니다.

kimsunglyul commented 3 years ago

네 감사합니다

sooftware commented 3 years ago

문제점이 파악됐습니다.,
현재 제공중인 transcripts.txt 파일과 aihub_character_vocabs.csv 파일이 동일하지 않아 발생한 문제였습니다. ㅠ.ㅠ
전처리를 다시 해서 업데이트 하겠습니다.

sooftware commented 3 years ago

업데이트 완료.