boostcampaitech7 / level2-nlp-datacentric-nlp-04

level2-nlp-datacentric-nlp-04 created by GitHub Classroom
0 stars 1 forks source link

Exp/eda Noise 탐지를 위한 EDA 개선 #26

Closed yeseoLee closed 1 week ago

yeseoLee commented 1 week ago

PR 정보

변경 사항

리뷰 참고사항


최종 결과: 오탐지 데이터 (14개 -> 15개)

morph_condition V1 (2개 -> 3개)

ynat-v1_train_00858,5,한국MS 윈도10 IoT 에디션 출시…B2B 공략
ynat-v1_train_01717,6,中 베이징서 H7N9 조류인플루엔자 환자 또 발생
ynat-v1_train_02139,3,CJ헬로비전SKB 합병 무효 소송 잇따라…LGU+ 법적 대응

morph_condition V2 (5개)

ynat-v1_train_00982,4,회전 카메라 탑재한 갤럭시A80 SKT 단독출시…59만9천500원
ynat-v1_train_01178,1,통신3사 5G 가입자 경쟁 불붙었다…LG V50 지원금 최대 77만원
ynat-v1_train_01225,5,세계 첫 5G폰 갤럭시S10 5G 출고가 139만7천원 확정종합
ynat-v1_train_01776,5,LGU 5G SA 상용화 준비…SA 기술 NSA 코어 장비에 연동 검증
ynat-v1_train_01873,3,LG전자 스마트폰사업 10분기 적자…3Q 영업손실 3천753억종합

sandwich (0개)

문자 비율 기반 정규표현식 (4개)

ynat-v1_train_00191,4,MLB.com 다저스 3년 연속 WS 유력하지만 우승은 글쎄…
ynat-v1_train_00741,6,게시판 SKT AI 콘퍼런스 ai.x 2019 개최
ynat-v1_train_02249,0,클린턴재단 후폭풍인가…힐러리 vs 트럼프 지지율 3%p로 좁혀져
ynat-v1_train_02399,2,재단법인화 tbs 초대 대표에 이강택 현 교통방송 대표

연속 특수문자 기반 (0개)

특수문자 및 소문자 비율 기반 (0개)

모델 기반 탐지 (0개)

luckyvickyricky commented 1 week ago

추가로 morph_condition V1부분 오탐지데이터 다시한번 확인해봤을때, ynat-v1_train_02139 (ID column)데이터도 오탐지 인 것 같습니다!(총 2개->3개) 이부분 눈으로 확인하는 부분이라 어느정도 오차가 있다고 판단하여 merge하였습니다.

yeseoLee commented 1 week ago

오탐지 데이터에 추가 반영 완료