openspeech-team / openspeech

Open-Source Toolkit for End-to-End Speech Recognition leveraging PyTorch-Lightning and Hydra.
https://openspeech-team.github.io/openspeech/
MIT License
677 stars 114 forks source link

vocab file의 만들지않습니다. #134

Closed qkrguswn2401 closed 2 years ago

qkrguswn2401 commented 2 years ago

❓ Questions & Help

안녕하세요. $ python ./openspeech_cli/hydra_train.py \ dataset=ksponspeech \ dataset.dataset_path=$DATASET_PATH \ (/mnt/data/kspondata) dataset.manifest_file_path=$MANIFEST_FILE_PATH \ (/mnt/data/manifest.txt) dataset.test_dataset_path=$TEST_DATASET_PATH \ (/mnt/data/manifest_test.txt) dataset.test_manifest_dir=$TEST_MANIFEST_DIR \ (/mnt/data/kspondata_eval) tokenizer=kspon_character \ model=listen_attend_spell \ audio=melspectrogram \ lr_scheduler=warmup_reduce_lr_on_plateau \ trainer=gpu \ criterion=cross_entropy 이렇게 했을시 밑에와같은 에러가 뜹니다. 공유하신 sp.vocab파일을 ksponspeech/character.py 에 해당하는 위치에 넣으면 sos_id attribute에 대한 error는 가 뜹니다.

Details

image

upskyy commented 2 years ago

sp.vocab 파일은 tokenizer가 kspon_subword 일 때 사용됩니다. kspon_character로 하시려면 dataset.manifest_file_path 와 tokenizer.vocab_path를 파일이 저장되기 원하는 경로로 설정해주시면 될 것 같습니다. KsponSpeech 데이터 구조 관련하여 링크 참고하시면 좋을 것 같습니다! 감사합니다.