ko-nlp / Korpora

Korean corpus repository
Creative Commons Attribution 4.0 International
693 stars 80 forks source link

Add AIHub KsponSpeech script(transcription only) dataset #196

Closed hwiorn closed 3 years ago

hwiorn commented 3 years ago

Pull Request

Korpora에 기여해 주셔서 감사합니다.

해당 Pull Request를 제출하기 전에 아래 사항이 완료되었는지 확인 부탁드립니다:

1. 해당 PR은 어떤 내용인가요?

AIHub에서 제공하는 한국어 음성 데이터셋의 전사 파일을 로딩하고, ETRI 전사규칙 중 레이블 제거 및 이중 전사 중 철자 전사만을 사용하여 LM용 학습코퍼스를 생성합니다.

2. PR과 관련된 이슈가 있나요?

193

195

lovit commented 3 years ago

이 내용도 dev branch 에 적용완료하였습니다.