학습 데이터 속 [UNK] 토큰이 포함된 데이터 처리 방안

기능 추가

필요한 기능을 적어주세요.

현재 Train.csv 에 [UNK] 토큰이 포함되는 문장이 913개 가량(전체 데이터의 약 3%)이란 것을 알게되었습니다. 그리고 대부분이 한자라고 판단되어, @duckray 님이 hanja 라이브러리를 통하여 한글로 치환해주셨습니다. 그래서 333 개로 줄었는데, 이 후에 대한 처리 방안이 필요합니다.

일본어, 러시아어, 스페인어, 아랍어 등에 대해서 [UNK] 토큰이 반환됩니다.
고유명사 + 조사 를 뭉텅이로 [UNK] 토큰으로 인식합니다. ➜ 간혹 ENTITY 가 고유명사라 위치 정보를 잃어버리는 경우도 있습니다.
오타가 있습니다. (ex. 거뒸을)

boostcampaitech3 / level2-klue-level2-nlp-11

학습 데이터 속 [UNK] 토큰이 포함된 데이터 처리 방안 #5

기능 추가