안녕하세요.
KLUE-DP 데이터 중 '%'를 포함하는 경우를 비롯하여, 다수의 열에 오류가 있음을 확인했습니다.
예시) 6번 word_form(0.90%)과 형태 분석(0 . 9 %)의 불일치
## klue-dp-v1_dev_00280_wikitree 지난해 혼인 건수는 30만2천800건으로 전년보다 0.9% 감소했다.
1 지난해 지나 ㄴ 해 VV+ETM+NNG 3 NP
2 혼인 혼인 NNG 3 NP
3 건수는 건수 는 NNG+JX 7 NP_SBJ
4 30만2천800건으로 30 만 2 천 800 건 으로 SN+NR+SN+NR+SN+NNB+JKB 7 NP_AJT
5 전년보다 전 년 보다 NNG+NNG+JKB 7 NP_AJT
6 0.90% 0 . 9 % SN+SP+SN+SW 7 NP_SBJ
7 감소했다. 감소 하 였 다 . NNG+XSV+EP+EF+SF 0 VP
(Optional) Suggestion
데이터에서 "#NAME?"과 같은 문자열이 나타나는 걸 보니, 아마도 엑셀에 한번 들어갔다 나오면서 생긴 오류 같네요.
## klue-dp-v1_train_04248_wikitree 해나는 지난 5월 방송된 MBC '휴먼다큐 사랑 -해나의 기적'에 출연해 기도 없이 태어나 2개월 시한부 판정을 받았음에도 32개월째 생명을 이어나가는 모습으로 많은 감동을 선사했던 '아기 천사'입니다.
...
6 '휴먼다큐 ' 휴먼다큐 SS+NNG 7 NP
7 사랑 사랑 NNG 9 NP
8 #NAME? #NAME? SS+NNP+JKG 9 NP_MOD
9 기적'에 기적 ' 에 NNG+SS+JKB 10 NP_AJT
10 출연해 출연 하 여 NNG+XSV+EC 24 VP
...
Description
안녕하세요. KLUE-DP 데이터 중 '%'를 포함하는 경우를 비롯하여, 다수의 열에 오류가 있음을 확인했습니다.
예시) 6번 word_form(0.90%)과 형태 분석(0 . 9 %)의 불일치
(Optional) Suggestion
데이터에서 "#NAME?"과 같은 문자열이 나타나는 걸 보니, 아마도 엑셀에 한번 들어갔다 나오면서 생긴 오류 같네요.
확인해 보시고 다음 업데이트에 반영되었으면 합니다.
현재 repo에 올라와 있는 v1.1 데이터와 diff 비교하여 확인해 보실 수 있도록 직접 수정한 파일 첨부해 드립니다. klue-dp-v1.1-manual-fix.zip
감사합니다.