Closed johnny9210 closed 2 years ago
딥스피치2 모델 자체가 옛날 모델이고, 데이터의 40%만 썼다는것 때문에도 성능이 많이 하락됐을 것 같습니다.
데이터 양을 작게 사용하시는 경우 LAS 구조를 사용해보시는걸 추천드립니다.
@johnny9210 아래의 커맨드로 실행한 결과입니다. ksponspeech 전체 데이터를 사용했고 data augmentation은 진행하지 않았습니다. LAS 구조로 해보셔도 되고, deepspeech2 모델을 사용하고 싶으시면 data augmentation 하는 것을 추천드려요!
python ./openspeech_cli/hydra_train.py \
dataset=ksponspeech \
tokenizer=kspon_character \
model=deepspeech2 \
audio=fbank \
lr_scheduler=warmup_reduce_lr_on_plateau \
trainer=gpu \
trainer.sampler=smart \
trainer.batch_size=48 \
criterion=ctc
감사합니다!
@johnny9210 조금 늦었지만 도움이 될까 싶어 답 남깁니다. OpenSpeech 모델 코드를 사용해 제작한 음성인식 코드로 DeepSpeech2를 학습하였는데요, ksponspeech 데이터셋 전체를 사용하여 20% 확률로 Data Augmentation을 수행하여 학습한 결과 대략 35 epoch에서 16%의 CER을 기록하였습니다.
감사합니다. 많은 도움이 되었습니다!!!
2022년 6월 7일 (화) 오후 3:46, Jeongtae Shin @.***>님이 작성:
@johnny9210 https://github.com/johnny9210 조금 늦었지만 도움이 될까 싶어 답 남깁니다. OpenSpeech 모델 코드를 사용해 제작한 음성인식 코드로 DeepSpeech2를 학습하였는데요, 20% 확률로 Data Augmentation을 수행한 결과 대략 35 epoch에서 16%의 CER을 기록하였습니다.
— Reply to this email directly, view it on GitHub https://github.com/openspeech-team/openspeech/issues/156#issuecomment-1148262184, or unsubscribe https://github.com/notifications/unsubscribe-auth/AH4VFEXWHMZJK24IMJ2RHCDVN3V4FANCNFSM5URIXV4Q . You are receiving this because you were mentioned.Message ID: @.***>
KsponSpeech데이터를 deepspeech2를 통해 모델을 만들고 있습니다. 전체 데이터를 학습하기에 좀 부담되어 전체 데이터 중 2/5 (30기가) 정도만 사용해서 학습하고 있는데 CER이 약 40% 정도 나오더라구요. 우선은 데이터 양이 일단 적어서 성능 자체가 많이 떨어지는 거겠죠? 음성인식 분야가 처음이라 한국어 음성인식 모델을 만들 때, 대략 어느정도의 데이터 양이 필요로 하는지 궁금합니다.