[DATA][EDA] 입력 데이터의 중복 요소 문제

현재 상황과 문제점

EDA 결과 학습 데이터 간의 중복이 있는 것을 확인

A : sentence 데이터가 중복된 데이터인 사건 B : subject_entity 데이터가 중복된 데이터인 사건 C : object_entity 데이터가 중복된 데이터인 사건 이라고 가정하면

전체 32470개의 데이터 중 n(A) = 7090, n(B) = 9314, n(C) = 9846 n(A ∩ B) = 2512 n(A ∩ C) = 1733 n(B ∩ C) = 3019 n(A ∩ B ∩ C) = 93 으로 train 데이터 전체 32470개의 데이터 중에 중복된 데이터가 많이 포함된 것을 확인

추가적인 문제로 A ∩ B ∩ C 인 경우에(즉, sentence와 subject_entity와 object_entity가 완전히 동일한 중복 데이터인 경우) Label이 다른 값을 나타내는 경우가 있음

id가 277, 3296, 10202 는 동일한 데이터를 가지지만 label은 no_relation, per:title, no_relation 으로 일치하지 않는 값을 가짐 마찬가지로 인덱스 (6749, 12829), (11511, 22258), (4212, 2509), (8365, 32299) 조합도 같은 입력 데이터지만 다름 label 값을 가지는 것으로 확인

Test 데이터의 경우

전체 7765개의 데이터 중 n(A) = 2, n(B) = 1446, n(C) = 937 n(A ∩ B) = 0 n(A ∩ C) = 0 n(B ∩ C) = 44 n(A ∩ B ∩ C) = 0

개선 제안 사항

중복되는 데이터를 어떻게 처리할지 여러 시도가 필요

단순히 제거하거나 분석 후 새롭게 가공이 필요

성능 개선 기대점

중복되는 데이터를 수정하면 노이즈를 제거하고 일반화의 성능이 높아질 것으로 기대함

boostcampaitech5 / level2_klue-nlp-04