Open lifefeel opened 2 years ago
ASR + LM 모델을 활용하여 검출한 결과를 수정하면서 아래와 같은 기준을 잡았습니다. 조금 더 정리가 필요하지만, 제 나름대로 카테고리화를 해봤습니다.
마지막 음절이 된소리로 발음 되는 것은 표준 표기법으로 채택
첫 음절에서 된소리로 발음되는 것은 개인성으로 판단하여 인정
발음의 개인성이 나타나는 부분은 원음대로 전사
사투리도 개인성으로 판단하여 원음으로 전사
빠르게 발음되는 부분은 표기법을 채택
빠르게 발음되더라도 둘다 인정하는 경우
띄어쓰기가 붙은 경우
대체로 PPL이 높게 나타남. 구어적 표현이 많다보니 띄어쓰기 없이 붙이는 경우가 많음(띄어쓰기 오류)
예:
띄어쓰기가 떨어진 경우
문법적으로 잘못 레이블링한 경우
재후님이 올린 내용 - 전처리규칙