openspeech-team / openspeech

Open-Source Toolkit for End-to-End Speech Recognition leveraging PyTorch-Lightning and Hydra.
https://openspeech-team.github.io/openspeech/
MIT License
670 stars 112 forks source link

문장 띄어쓰기 빈칸 표시에 대해서 궁금한 점 질문 드립니다. #184

Closed parkmy123 closed 1 year ago

parkmy123 commented 1 year ago

❓ Questions & Help

안녕하세요. 이전까지 kospeech로 모델을 학습하다가 재학습과 관련해서 문제가 생겨 이번에 openspeech로 모델 학습을 테스트 하고 있습니다.

kospeech에선 문장의 띄어쓰기를 csv 파일에 ' '와 같이 스페이스 바 빈칸으로 처리하여 학습과 추론에 적용한 것으로 보였는데, openspeech에선 \<blank>로 대신하는 듯 하여 csv 파일 내용도 로 변경하여 학습을 진행하였습니다.

학습 자체는 문제 없이 잘 진행되었는데, 학습된 모델을 hydra_eval.py에 적용하여 문장 추론을 진행하였더니 추론한 문장에선 띄어쓰기가 모두 생략되어 WER과 CER을 측정하는 것 같았습니다. 이것이 의도된 결과인 지 제가 kospeech에서 사용하던 csv 등을 잘못 변경해서 학습한 결과인 지 궁금합니다.

그리고 kospeech에선 빈칸도 transcript상에 빈칸의 id값인 3으로 표시 되었었는데 openspeech로 작성된 transcript에선 빈칸에 대한 id값 표시는 생략된 것처럼 보입니다. 이것도 정상적으로 처리된 것인가요?

Details

kospeech 학습 때 사용한 csv와 txt 파일 내용 일부 ko_csv ko_trans

openspeech 학습 때 사용한 csv와 txt 파일 내용 일부 open_csv open_trans

openspeech 위 데이터를 통해 테스트 학습한 모델 eval 결과 eval

parkmy123 commented 1 year ago

ㅎㅎ...생각보다 허무하게 해결되었습니다.

어제 글 작성한 후에 혹시나 싶어 csv 파일의 \<blank> 아래 ' ' 추가한 후 학습하니 띄어쓰기도 학습되었습니다. 제가 \<blank> 토큰의 역할을 착각한 것 같네요.

화면 캡처 2022-12-23 092629 화면 캡처 2022-12-23 103836