sogang-isds / KsponSpeech

AIHub의 KsponSpeech 데이터셋 관련 코드 스크립트
1 stars 0 forks source link

데이터 변환 규칙 정리 #5

Open lifefeel opened 2 years ago

lifefeel commented 2 years ago

재후님이 올린 내용 - 전처리규칙

lifefeel commented 2 years ago

ASR + LM 모델을 활용하여 검출한 결과를 수정하면서 아래와 같은 기준을 잡았습니다. 조금 더 정리가 필요하지만, 제 나름대로 카테고리화를 해봤습니다.

발음에 기반해서 표기하더라도 헷갈리는 것

마지막 음절이 된소리로 발음 되는 것은 표준 표기법으로 채택

첫 음절에서 된소리로 발음되는 것은 개인성으로 판단하여 인정

발음의 개인성이 나타나는 부분은 원음대로 전사

사투리도 개인성으로 판단하여 원음으로 전사

빠르게 발음되는 부분은 표기법을 채택

빠르게 발음되더라도 둘다 인정하는 경우

문맥없이는 들리지 않는 유형

띄어쓰기 오류

띄어쓰기가 붙은 경우

대체로 PPL이 높게 나타남. 구어적 표현이 많다보니 띄어쓰기 없이 붙이는 경우가 많음(띄어쓰기 오류)

예:

띄어쓰기가 떨어진 경우

단순 오류

문법적으로 잘못 레이블링한 경우

사람의 귀로 거의 분간이 안되는 발음

기타

발음기반 레이블을 했을 때 아쉬운 점