boostcampaitech7 / level2-nlp-datacentric-nlp-04

level2-nlp-datacentric-nlp-04 created by GitHub Classroom
0 stars 1 forks source link

[EXP] Noise 탐지를 위한 EDA #22

Closed yeseoLee closed 2 weeks ago

yeseoLee commented 2 weeks ago

ISSUE: Experiment

노션 링크

https://www.notion.so/cukminseo/b4eb17df4edd4f82a103fa2a0f7bc1c1?pvs=4

실험 목적

체크리스트


최종 결과: 오탐지 데이터 (14개 -> 15개)

morph_condition V1 (2개 -> 3개)

ynat-v1_train_00858,5,한국MS 윈도10 IoT 에디션 출시…B2B 공략
ynat-v1_train_01717,6,中 베이징서 H7N9 조류인플루엔자 환자 또 발생
ynat-v1_train_02139,3,CJ헬로비전SKB 합병 무효 소송 잇따라…LGU+ 법적 대응

morph_condition V2 (5개)

ynat-v1_train_00982,4,회전 카메라 탑재한 갤럭시A80 SKT 단독출시…59만9천500원
ynat-v1_train_01178,1,통신3사 5G 가입자 경쟁 불붙었다…LG V50 지원금 최대 77만원
ynat-v1_train_01225,5,세계 첫 5G폰 갤럭시S10 5G 출고가 139만7천원 확정종합
ynat-v1_train_01776,5,LGU 5G SA 상용화 준비…SA 기술 NSA 코어 장비에 연동 검증
ynat-v1_train_01873,3,LG전자 스마트폰사업 10분기 적자…3Q 영업손실 3천753억종합

sandwich (0개)

문자 비율 기반 정규표현식 (4개)

ynat-v1_train_00191,4,MLB.com 다저스 3년 연속 WS 유력하지만 우승은 글쎄…
ynat-v1_train_00741,6,게시판 SKT AI 콘퍼런스 ai.x 2019 개최
ynat-v1_train_02249,0,클린턴재단 후폭풍인가…힐러리 vs 트럼프 지지율 3%p로 좁혀져
ynat-v1_train_02399,2,재단법인화 tbs 초대 대표에 이강택 현 교통방송 대표

연속 특수문자 기반 (0개)

특수문자 및 소문자 비율 기반 (0개)

모델 기반 탐지 (0개)