Open crlotwhite-mirror opened 1 year ago
전체 길이에 대한 분포
서브 텍스트의 분포
BERT가 512자라는 기준을 가지고 있어서 고민했는데, 전체 분포를 보니 적당히 컷 해도 될 것 같네요. 400자 기준으로 컷하고, 데이터 증강합시다.
https://github.com/toriving/KoEDA
위 사이트에 여러 데이터 증강 기법이 있는데 이거를 적당히 정리해서 써먹읍시다.
화자 swap은 한번 의견 들어보고 싶네요.
개인적인 의견으로는 화자 swap은 별 효과는 없지 않을까 싶습니다
- 단어 분포에 대한 연구 결과 (용현님)
- 수동 라벨링하면서 발견한 경향성 (민홍님)
- 데이터 어그멘테이션 여부에 따른 성능 변화
- word2vec 사용 여부에 따른 변화
- 클래스별 분포
- 클래스별 평균 글자수 분포
- 전체 글자수 분포
- 특정 클래스에 자주 발견되는 단어
- 불용어 처리 적용 여부에 대한 성능 변화
그외 성능 변화가 있을 법 한 것들에 대해서 시각화 자료 (그래프나 테이블)이 있으면 좋을 것 같아요
클래스별 분포는 문제에 나와있으니까 빼죠 ㅎㅎㅎ
@soh-yh 의견 정말 감사합니다. 네, 사실 그렇게 되면 이미 있는 라이브러리만으로 충분히 할 수 있어서 편할 것 같네요.
그리고 클래스별 분포는 발표상에서 데이터를 소개할 때 언급하면 좋겠다고 생각했는데, 이는 월요일에 한번 더 말씀 나누면 좋을 것 같습니다.
지금 보니 클래스별 단어수 분포는 필요 없어보이네요.
그외 성능 변화가 있을 법 한 것들에 대해서 시각화 자료 (그래프나 테이블)이 있으면 좋을 것 같아요