현재 Train.csv 에 [UNK] 토큰이 포함되는 문장이 913개 가량(전체 데이터의 약 3%)이란 것을 알게되었습니다.
그리고 대부분이 한자라고 판단되어, @duckray 님이 hanja 라이브러리를 통하여 한글로 치환해주셨습니다.
그래서 333 개로 줄었는데, 이 후에 대한 처리 방안이 필요합니다.
일본어, 러시아어, 스페인어, 아랍어 등에 대해서 [UNK] 토큰이 반환됩니다.
고유명사 + 조사 를 뭉텅이로 [UNK] 토큰으로 인식합니다. ➜ 간혹 ENTITY 가 고유명사라 위치 정보를 잃어버리는 경우도 있습니다.
기능 추가
필요한 기능을 적어주세요.
현재 Train.csv 에 [UNK] 토큰이 포함되는 문장이 913개 가량(전체 데이터의 약 3%)이란 것을 알게되었습니다. 그리고 대부분이 한자라고 판단되어, @duckray 님이
hanja
라이브러리를 통하여 한글로 치환해주셨습니다. 그래서 333 개로 줄었는데, 이 후에 대한 처리 방안이 필요합니다.