boostcampaitech5 / level2_klue-nlp-04

level2_klue-nlp-04 created by GitHub Classroom
1 stars 0 forks source link

[DATA][EDA] 입력 데이터의 중복 요소 문제 #20

Closed ChoiHwimin closed 1 year ago

ChoiHwimin commented 1 year ago

현재 상황과 문제점

EDA 결과 학습 데이터 간의 중복이 있는 것을 확인

A : sentence 데이터가 중복된 데이터인 사건 B : subject_entity 데이터가 중복된 데이터인 사건 C : object_entity 데이터가 중복된 데이터인 사건 이라고 가정하면

전체 32470개의 데이터 중 n(A) = 7090, n(B) = 9314, n(C) = 9846 n(A ∩ B) = 2512 n(A ∩ C) = 1733 n(B ∩ C) = 3019 n(A ∩ B ∩ C) = 93 으로 train 데이터 전체 32470개의 데이터 중에 중복된 데이터가 많이 포함된 것을 확인

추가적인 문제로 A ∩ B ∩ C 인 경우에(즉, sentence와 subject_entity와 object_entity가 완전히 동일한 중복 데이터인 경우) Label이 다른 값을 나타내는 경우가 있음

id가 277, 3296, 10202 는 동일한 데이터를 가지지만 label은 no_relation, per:title, no_relation 으로 일치하지 않는 값을 가짐 마찬가지로 인덱스 (6749, 12829), (11511, 22258), (4212, 2509), (8365, 32299) 조합도 같은 입력 데이터지만 다름 label 값을 가지는 것으로 확인

Test 데이터의 경우

전체 7765개의 데이터 중 n(A) = 2, n(B) = 1446, n(C) = 937 n(A ∩ B) = 0 n(A ∩ C) = 0 n(B ∩ C) = 44 n(A ∩ B ∩ C) = 0

개선 제안 사항

중복되는 데이터를 어떻게 처리할지 여러 시도가 필요

단순히 제거하거나 분석 후 새롭게 가공이 필요

성능 개선 기대점

중복되는 데이터를 수정하면 노이즈를 제거하고 일반화의 성능이 높아질 것으로 기대함

ChoiHwimin commented 1 year ago

image 완전한 중복된 내용인 데이터들 중에 label이 다른 값들임 no_relation과 org:members만 제거하면 정확해 보여 해당 label의 제거가 필요해 보이며

label까지 동일한 데이터들은 중복된 데이터를 한개만 남기고 제거가 필요해 보임