issues
search
boostcampaitech6
/
level2-nlp-datacentric-nlp-06
level2-nlp-datacentric-nlp-06 created by GitHub Classroom
0
stars
0
forks
source link
[FEAT] 불용어 & 축약어 처리
#2
Closed
yeowonh
closed
9 months ago
yeowonh
commented
9 months ago
Category
Data
Background
Mecab으로 형태소 분석 후 Wordcloud로 200개의 빈출 단어를 시각화해본 결과, 조사나 특수기호 등 텍스트 분류에 크게 영향을 미치지 않는 형태소가 많이 존재한다는 것을 확인할 수 있었습니다.
따라서 텍스트 전처리가 모델 성능 향상에 도움을 줄 것으로 판단하였고, 아래와 같은 전처리를 진행합니다.
발견된 한자 / 영어 축약어를 한글 단어로 변환
한글이 아닌 문자 (한자, 영어, 특수문자) 를 없앰
한글이어도 크게 의미를 가지지 않는 "그래픽", "종합" 과 같은 출처 관련 단어 제거
형태소 분석기 (Mecab) 사용해 큰 의미를 가지지 않는 형태소 제거 (ex. 의존명사, 감탄사 등)
To do
[x] Mecab 설치
[x] 영어 축약어 한국어 변환
[x] 한자 한국어 변환
[x] 완전한 형태의 한글을 제외한 문자 (한글 초성, 한자, 영어, 특수문자) 제거
[x] 출처 관련 단어 제거
[x] 큰 의미를 가지지 않는 형태소 분석 후 제거
Expected behavior
References
-
yeowonh
commented
9 months ago
오히려 베이스라인보다 성능이 감소했다. (f1 score 0.8384 -> 0.8312)
원인 분석
test data의 text는 건드릴 수 없기 때문에, 모델에서 한자, 영어 축약어 관련된 내용은 다 UNK 으로 처리되었을 것이다.
형태소도 마찬가지.
이를 모두 전처리하는 것보다, 필수적인 전처리만 진행하고 데이터 증강에 주력하는 것도 좋아보인다
후속 작업
테스트 데이터에서의 특수 문자 (영어, 한자, 특수기호) 확인
필수적인 전처리만 진행 후 데이터 증강 (back translation, EDA 시도)
Category
Background
To do
Expected behavior
References
-