boostcampaitech3 / level2-klue-level2-nlp-11

level2-klue-level2-nlp-11 created by GitHub Classroom
0 stars 5 forks source link

학습 데이터 속 [UNK] 토큰이 포함된 데이터 처리 방안 #5

Closed BlueYellowGreen closed 2 years ago

BlueYellowGreen commented 2 years ago

기능 추가

필요한 기능을 적어주세요.

현재 Train.csv 에 [UNK] 토큰이 포함되는 문장이 913개 가량(전체 데이터의 약 3%)이란 것을 알게되었습니다. 그리고 대부분이 한자라고 판단되어, @duckray 님이 hanja 라이브러리를 통하여 한글로 치환해주셨습니다. 그래서 333 개로 줄었는데, 이 후에 대한 처리 방안이 필요합니다.