alsrb0607 / KoreanSTT

kospeech를 활용한 한국어 음성 인식 모델 개발
Apache License 2.0
31 stars 13 forks source link
korean-speech-recognition korean-stt speech-recognition speech-to-text stt
## 외국인 발화 한국어 음성 인식(Korean STT) **kospeech를 활용한 한국어 음성인식 모델 개발** ___

해당 프로젝트는 End-to-End 한국어 음성 인식 오픈소스 툴킷인 kospeech를 활용하여 진행했음을 밝힙니다.

- 프로젝트 개요

- 모듈 설치

!pip install -r requirements_cssiri.txt

- 전처리(Preprocess)

!python ./dataset/kspon/main.py --dataset_path $dataset_path --vocab_dest $vacab_dict_destination --output_unit 'character' --preprocess_mode 'phonetic' 

- 학습(Train)

!python ./bin/main.py model=ds2 train=ds2_train train.dataset_path=$dataset_path

- 예측(Inference)

모든 command에 대한 deivice 옵션은 상황에 맞게 지정해주세요.

  1. 음성 파일 1개에 대한 예측
    • Command
!python ./bin/inference.py --model_path $model_path --audio_path $audio_path --device "cpu"
음성 인식 결과
  1. 음성 파일 1개에 대한 예측과 Cer, Wer 계산 결과 저장
    (결과는 dst_path에 저장되며, 정답 label인 transcripts.txt파일을 transcript_path에 지정해주어야 합니다. 그 형식은 전처리에 필요한 train.txt 파일 혹은 학습에 사용되는 transcripts.txt와 동일해야 합니다.)
    • Command
      python ./bin/inference_wer.py --model_path $model_path --audio_path $audio_path --transcript_path $transcript_path --dst_path $result_destination --device "cpu"
    • Output
음성 인식 결과
  1. 음성 파일 여러 개(폴더)에 대한 예측과 그 결과 저장(.txt, .xlsx)
    • Command
      python ./bin/prediction.py --model_path $model_path --audio_path $audio_path --submission 'True' --device "cpu"

      'submission = True'로 지정하면 예측 결과를 .xlsx 파일로 저장할 수 있습니다. 다만 2개의 컬럼을 갖는 제출용 excel 파일을 필요로 합니다.

    • Output

./outputs 폴더에 .txt와 .xlsx 파일 생성

- References