Closed hwiorn closed 5 years ago
최근 발표된 데이터셋을 활용하는 스크립트군요. 안그래도 시간을 내어 적용할까 생각했는데. 이렇게 만들어주셔서 감사합니다. 먼저 데이터를 가져오는 부분만 제가 동작확인을 하고 merge 하겠습니다. 성능검증은 머지 후 진행하지요.
kspon 데이터셋은 저작권(AI HUB 데이터셋 사용)만 밝히면 배포 목적에 따라 상업용으로도 사용가능한 것 같습니다. 그런데, NIA 산하에서 배포하는 것이기 때문에, 재배포는 허용되지 않을 것이기 때문에, 사용하기 위해서는 직접 다운로드가 필요합니다. kspon 데이터셋 다운로드를 하기 위해서는, 회원가입, 개인(회사)정보 및 사용목적 등록 후, 담당자 승인 절차를 거친 후에, 가능합니다. data_prep 이후, dnn 트레이닝 전까지 확인 했는데... 용량이 용량이니 만큼, 시간이 걸릴 터라 천천히 확인해주세요.
잘못 작성된 비문이나 코드가 있다면 수정해주시면 좋을 것 같습니다. :)
코드 실행시 local/kspon_data_prep.sh: Unzipping datasets ... unzip: cannot find or open ../../kspon/KsponSpeech_03/.zip, ../../kspon/KsponSpeech_03/.zip.zip or ../../kspon/KsponSpeech_03/*.zip.ZIP.
No zipfiles found. unzip: cannot find or open ../../kspon/KsponSpeech_01/.zip, ../../kspon/KsponSpeech_01/.zip.zip or ../../kspon/KsponSpeech_01/*.zip.ZIP.
No zipfiles found. unzip: cannot find or open ../../kspon/KsponSpeech_02/.zip, ../../kspon/KsponSpeech_02/.zip.zip or ../../kspon/KsponSpeech_02/*.zip.ZIP.
No zipfiles found. unzip: cannot find or open ../../kspon/KsponSpeech_04/.zip, ../../kspon/KsponSpeech_04/.zip.zip or ../../kspon/KsponSpeech_04/*.zip.ZIP.
No zipfiles found. unzip: cannot find or open ../../kspon/KsponSpeech_05/.zip, ../../kspon/KsponSpeech_05/.zip.zip or ../../kspon/KsponSpeech_05/*.zip.ZIP.
No zipfiles found. local/kspon_data_prep.sh: Generating files.info find: find: find: ‘../../kspon/KsponSpeech_0004’‘../../kspon/KsponSpeech_0005’‘../../kspon/KsponSpeech_0002’: 그런 파일이나 디렉터리가 없습니다: 그런 파일이나 디렉터리가 없습니다
: 그런 파일이나 디렉터리가 없습니다 find: find: ‘../../kspon/KsponSpeech_0003’‘../../kspon/KsponSpeech_0001’: 그런 파일이나 디렉터리가 없습니다: 그런 파일이나 디렉터리가 없습니다
local/kspon_data_prep.sh: line 72: ../../kspon/KsponSpeech_0004/files.info: 그런 파일이나 디렉터리가 없습니다 local/kspon_data_prep.sh: line 72: ../../kspon/KsponSpeech_0003/files.info: 그런 파일이나 디렉터리가 없습니다 local/kspon_data_prep.sh: line 72: ../../kspon/KsponSpeech_0005/files.info: 그런 파일이나 디렉터리가 없습니다 local/kspon_data_prep.sh: line 72: ../../kspon/KsponSpeech_0001/files.info: 그런 파일이나 디렉터리가 없습니다 local/kspon_data_prep.sh: line 72: ../../kspon/KsponSpeech_0002/files.info: 그런 파일이나 디렉터리가 없습니다 local/kspon_data_prep.sh: Generating kaldi data from files.info .awk: fatal: cannot open file `../../kspon/KsponSpeech_0001/files.info' for reading (그런 파일이나 디렉터리가 없습니다)
이런 에러가 발생하는데 현재 압축해제 후 kspon/KsponSpeech_01/KsponSpeech_0001~0124가 들어가있는 구조인데 안에 있는 데이터를 밖으로 빼야하나요??
압축을 직접 해제하신 뒤, 사용하신 건가요? 스크립트는 src 디렉토리 하위에 아래와 같이 파일이 있다는 걸 전제로 하여, 동작합니다.(사용자가 직접 압축 해제하지 않고, 스크립트에서 자동 압축 해제하는 방식)
스크립트에서 src 디렉토리에 압축을 전부 풀면, 아래와 같이 구성됩니다.
압축 해제가 완료되면, 사용하는 파일들을 아래 디렉토리에 있는 파일들입니다.
만약, 압축해제된 상태로 구성하려면, 아래와 같이 하시면 될 것 같습니다만 보장은 못하겠네요.
src 디렉토리에
파일을 두었습니다. 그리고 스크립트를 실행시키면 압축해제되고
의 폴더가 생성되고 위의 에러가 발생했습니다.
그래서 local/kspon_data_prep.sh 파일의 69번째줄 datadir=$src/$(printf "KsponSpeech%04d" $i) KsponSpeech%04d -> KsponSpeech%02d로 수정해서 다음단계로 진행중인데 맞는지는 모르겠어요 ㅜㅜ 수정 후 files.info가 생성되었습니다. (KsponSpeech_01/files.info)
음... 스크립트를 수행하면...
가 아니라,
로 생성되어야 합니다.
https://github.com/goodatlas/zeroth/pull/12/commits/075ae633dbdf40387115bc7689b71952b6e1bbc9#diff-805a50c4e3623b9eb917f9498f827bafR39 의 아래 코드를 보면, src 디렉토리에 압축을 풀게 되어 있습니다.
for part in $src/KsponSpeech_0{1,2,3,4,5}; do
if [ ! -f $part/.done ]; then
if [ ! -f $part.zip ]; then
echo $0: $part.zip is not exists
exit 1
fi
(
set -e
unzip -oqq $part.zip -d $src/
for zip in $part/*.zip; do
unzip -oqq $zip -d $src/ # <----- 이 부분에서 src directory 압축 해제
done
touch $part/.done
) &
fi
done
제공하는 ZIP 파일 구조가 바뀌었을 수도 있으니, 다시 확인해보겠습니다.
확인해보니, 배포하는 ZIP 파일 구조가 바뀌었네요. 기존에는 zip파일 안에 zip파일이 있었고 압축해제 작업을 더 했어야 했는데, 지금은 하나로 만들어져 있네요. 수정해서 테스트한 뒤에 다시 올리도록 하겠습니다.
네!! 감사합니다
압축 해제 부분을 수정하였고, text 변경도 일부 추가하였습니다. 이전에는 ETRI 규칙에 따른 철자표기를 최대한 살리려 작업을 진행했었는데, 다시 확인해보니 예외처리 해야할 내용이 많아서, 이번에 실제발음 표기로 변경하도록 수정하였습니다. 일부 특수 기호들이 남아있는 문제들이 있어서, 치환 룰을 수정하였습니다.
압축파일 구조가 바뀌고 경우에따라서는 압축해제가 안되는 경우도 있더군요. 수정후 다시 오픈하실 예정이신지요?
지금 변경하여, PR 작성 중입니다 :)
NIA AI오픈 이노베이션 허브에서 제공하는 한국어 음성 데이터셋(1000시간 발화, 2000 발화자)을 사용하는 스크립트를 추가하였습니다.
run_kspon.sh
스크립트는 openslr로부터 받은 zeroth 데이터셋도 사용합니다. kspon 데이터셋은 학습시에 사용됩니다. kspon 데이터셋은 현재 총 5파트로 zip파일들로 제공됩니다.kspon
디렉토리에 zip파일들이 있다는 전제 하에 작성하였습니다. kspon 데이터셋은 압축 용량은 79G고, 5개 압축 파일 내의 압축 파일로 이루어져 있어, 압축을 다풀면 총 263G 정도(압축파일들 포함) 디스크를 차지합니다.