openspeech-team / openspeech

Open-Source Toolkit for End-to-End Speech Recognition leveraging PyTorch-Lightning and Hydra.
https://openspeech-team.github.io/openspeech/
MIT License
677 stars 114 forks source link

성능관련 질문 #156

Closed johnny9210 closed 2 years ago

johnny9210 commented 2 years ago

KsponSpeech데이터를 deepspeech2를 통해 모델을 만들고 있습니다. 전체 데이터를 학습하기에 좀 부담되어 전체 데이터 중 2/5 (30기가) 정도만 사용해서 학습하고 있는데 CER이 약 40% 정도 나오더라구요. 우선은 데이터 양이 일단 적어서 성능 자체가 많이 떨어지는 거겠죠? 음성인식 분야가 처음이라 한국어 음성인식 모델을 만들 때, 대략 어느정도의 데이터 양이 필요로 하는지 궁금합니다.

sooftware commented 2 years ago

딥스피치2 모델 자체가 옛날 모델이고, 데이터의 40%만 썼다는것 때문에도 성능이 많이 하락됐을 것 같습니다.
데이터 양을 작게 사용하시는 경우 LAS 구조를 사용해보시는걸 추천드립니다.

upskyy commented 2 years ago

@johnny9210 아래의 커맨드로 실행한 결과입니다. ksponspeech 전체 데이터를 사용했고 data augmentation은 진행하지 않았습니다. LAS 구조로 해보셔도 되고, deepspeech2 모델을 사용하고 싶으시면 data augmentation 하는 것을 추천드려요!

python ./openspeech_cli/hydra_train.py \
    dataset=ksponspeech \
    tokenizer=kspon_character \
    model=deepspeech2 \
    audio=fbank \
    lr_scheduler=warmup_reduce_lr_on_plateau \
    trainer=gpu \    
    trainer.sampler=smart \
    trainer.batch_size=48 \
    criterion=ctc

1 2

johnny9210 commented 2 years ago

감사합니다!

Klassikcat commented 2 years ago

@johnny9210 조금 늦었지만 도움이 될까 싶어 답 남깁니다. OpenSpeech 모델 코드를 사용해 제작한 음성인식 코드로 DeepSpeech2를 학습하였는데요, ksponspeech 데이터셋 전체를 사용하여 20% 확률로 Data Augmentation을 수행하여 학습한 결과 대략 35 epoch에서 16%의 CER을 기록하였습니다.

johnny9210 commented 2 years ago

감사합니다. 많은 도움이 되었습니다!!!

2022년 6월 7일 (화) 오후 3:46, Jeongtae Shin @.***>님이 작성:

@johnny9210 https://github.com/johnny9210 조금 늦었지만 도움이 될까 싶어 답 남깁니다. OpenSpeech 모델 코드를 사용해 제작한 음성인식 코드로 DeepSpeech2를 학습하였는데요, 20% 확률로 Data Augmentation을 수행한 결과 대략 35 epoch에서 16%의 CER을 기록하였습니다.

— Reply to this email directly, view it on GitHub https://github.com/openspeech-team/openspeech/issues/156#issuecomment-1148262184, or unsubscribe https://github.com/notifications/unsubscribe-auth/AH4VFEXWHMZJK24IMJ2RHCDVN3V4FANCNFSM5URIXV4Q . You are receiving this because you were mentioned.Message ID: @.***>