클래스 | Class No. | # Training | # Test |
---|---|---|---|
협박 | 00 | 896 | 100 |
갈취 | 01 | 981 | 100 |
직장 내 괴롭힘 | 02 | 979 | 100 |
기타 괴롭힘 | 03 | 1,094 | 100 |
일반 | 04 | - | 100 |
AIFFEL 3차 해커톤 TUNiB 기업과제 데이터셋 DKTC으로 DKTC(Dataset of Korean Threatening Converstations)
훈련 데이터의 클래스는 '협박', '갈취', '직장 내 괴롭힘', '기타 괴롭힘' 4가지 클래스로 이루어져 있고 테스트 데이터의 클래스는 '일반' 클래스가 추가된 5가지 클래스입니다.
해당 5종류의 클래스를 문장을 입력으로 넣어서 분류하는 텍스트 다중 분류 모델을 만들어서 F1-score의 점수를 높이는 것이 과제의 목표입니다.
일반 대화 클래스의 경우 AI hub 데이터를 활용해야 하며 사용되기 좋다고 생각되는 데이터셋은 다음과 같습니다.
일반대화 조합 | 모델 | epochs | 기타 추가 기법 | F1-score |
---|---|---|---|---|
한국어 대화 데이터 4000개 | Soft voting 앙상블 (klue/bert-base, skt/kogpt2, LSTM) | 1 | - | 0.673 |
한국어 SNS 데이터 4000개 한국어 대화 데이터 4000개 | klue/bert-base (단일 모델) | 1 | - | 0.821 |
한국어 SNS 데이터 4000개 한국어 대화 데이터 4000개 | klue/bert-base (단일 모델) | 3 | 1. 학습률 스케쥴러 : 0.5 | 0.829 |
한국어 SNS 5000개 한국어 대화 5000개 감성 말뭉치 5000개 오분류 SNS데이터 350개 | klue/bert-base (단일 모델) | 5 | 1. 학습률 스케쥴러 : 0.2 | 0.865 |
한국어 SNS 5000개 한국어 대화 5000개 감성 말뭉치 5000개 오분류 SNS데이터 350개 역번역 데이터 | 일반대화 데이터로 사전학습시킨 klue/bert-base (TAPT 적용) | 4 | 1. 학습률 스케쥴러 : 0.2 2. 추가적 사전학습 TAPT 적용 | 0.875 |
한국어 SNS 5000개 한국어 대화 5000개 감성 말뭉치 5000개 오분류 SNS데이터 350개 | 일반대화 데이터로 사전학습시킨 klue/bert-base (TAPT 적용) | 2 | 1. 학습률 스케쥴러 : 0.2 2. 추가적 사전학습 TAPT 적용 3. XAI insight | 0.882 |
불균형 데이터
다중 분류 모델
설명 가능한 AI
기존의 혐오표현과 욕설을 잡아내는 연구들
Github
기타 참고 사이트
GAN을 NLP에 적용 (seqGAN)