Closed kimsunglyul closed 3 years ago
네 안녕하세요. 저희도 현재 모델이 추론을 정상적으로 하지 못하는 것 같아 문제 파악중에 있습니다. ㅠ.ㅠ 파악되는대로 수정하겠습니다.
네 감사합니다
문제점이 파악됐습니다.,
현재 제공중인 transcripts.txt
파일과 aihub_character_vocabs.csv
파일이 동일하지 않아 발생한 문제였습니다. ㅠ.ㅠ
전처리를 다시 해서 업데이트 하겠습니다.
업데이트 완료.
안녕하세요 문의사항이 있어서 질문 드립니다.
63 를 참조하고 [UPDATED] Pre-train Models(las_epoch1_cer_19.pt)를 다운받아
테스트 하는데 결과값이 알수없는 문장으로 추출 되어 나옵니다.
실행 python inference.py --model_path=las_epoch1_cer_19.pt --audio_path=KsponSpeech_000001.pcm KsponSpeech_000001.zip
테스트 데이터는 https://aihub.or.kr/aidata/105/download에서 받은 KsponSpeech음성입니다.
정답 [아/ 몬 소리야, 그건 또. b/] 추출 ['그어 거고 이가거까기 그는나고제이다 서어보 야근게']
이전 issue 답해 주신걸 보니 feature_vector를 reverse 해보라고 하셔서 inference.py 파일을 아래와 같이 수정하였습니다. def parse_audio(audio_path: str, del_silence: bool = False, audio_extension: str = 'pcm') -> Tensor: signal = load_audio(audio_path, del_silence, extension=audio_extension) print(signal) feature_vector = torchaudio.compliance.kaldi.fbank( waveform=Tensor(signal).unsqueeze(0), num_mel_bins=80, frame_length=20, frame_shift=10, window_type='hamming'
).transpose(0, 1).numpy()
feature_vector -= feature_vector.mean() feature_vector /= np.std(feature_vector) feature_vector = feature_vector[:, ::-1] feature_vector = torch.FloatTensor(np.ascontiguousarray(np.swapaxes(feature_vector, 0, 1)))
return feature_vector 수정후에도 정상적으로 추출되지 않는것 같습니다.
이상입니다. 답변 부탁드리겠습니다.
감사합니다.