homink / deepspeech.pytorch.ko

MIT License
22 stars 11 forks source link

nikl.py #2

Closed kst5118 closed 5 years ago

kst5118 commented 5 years ago

좋은 repo 올려 주신 거 감사드립니다. 다른 dataset(an4..)들의 training은 문제가 없이 잘 진행되는 데 한글 데이타셋들은 전혀 진행이 되지 않네요. 제가 초보자라 그런 것 같습니다.

먼저 국립국어원에서 압축파일을 받았는데 이 걸 어느 디렉토리에 풀어야 하는 지 정확히 모르겠습니다. 다른 데이타셋들은 deepspeech/data에 압축파일이 저장되고 process되서 nikl dataset도 일단 deepspeech/data에 넣어두고 python nikl.py를 치면

image

이와같이 에러가 나옵니다. deepspeech/data/local/에 clean_corpus.sh는 존재하는데 OSError가 나오는 데 이유를 모르겠습니다.

또 이와 다르게 직접 압축파일들을 풀고 an4와 유사하게 manifest.csv를 만들어서 train시켜도 wav파일을 못찾는 OSError가 나옵니다. 디렉토리 지정을 정확히 되어있는데도... 물론 original deepspeech repo에서도 똑같은 에러가 나옵니다.

다른 데이타셋들은 정상적으로 training이 됩니다.

좋은 조언 부탁드립니다. 감사합니다.

homink commented 5 years ago

늦게 회신을 드립니다. 혹시 Python 2.7로도 해보셨는지요.. 제 기억에 여기 repo는 Python 2.7로 했었던 것 같습니다. clean_corpus.sh이 있어도 아마 subprocess의 사용 방법이 달라 에러가 날 것 같습니다.

jybaek commented 5 years ago

The scripts( clean_corpush.sh, ... ) in the data/local/ directory would probably have the wrong bash path. Please try to modify the script as shown below. :)

#!/usr/bin/env bash
homink commented 5 years ago

Good catch!