시각화 자료 준비

crlotwhite-mirror commented 1 year ago

단어 분포에 대한 연구 결과 (용현님)
수동 라벨링하면서 발견한 경향성 (민홍님)
데이터 어그멘테이션 여부에 따른 성능 변화
word2vec 사용 여부에 따른 변화
클래스별 분포
클래스별 평균 글자수 분포
전체 글자수 분포
특정 클래스에 자주 발견되는 단어
불용어 처리 적용 여부에 대한 성능 변화

그외 성능 변화가 있을 법 한 것들에 대해서 시각화 자료 (그래프나 테이블)이 있으면 좋을 것 같아요

crlotwhite-mirror commented 1 year ago

전체 길이에 대한 분포 total len of text

서브 텍스트의 분포 length of subtext

BERT가 512자라는 기준을 가지고 있어서 고민했는데, 전체 분포를 보니 적당히 컷 해도 될 것 같네요. 400자 기준으로 컷하고, 데이터 증강합시다.

crlotwhite-mirror commented 1 year ago

https://github.com/toriving/KoEDA

위 사이트에 여러 데이터 증강 기법이 있는데 이거를 적당히 정리해서 써먹읍시다.

화자 swap은 한번 의견 들어보고 싶네요.

soh-yh commented 1 year ago

개인적인 의견으로는 화자 swap은 별 효과는 없지 않을까 싶습니다

soh-yh commented 1 year ago

단어 분포에 대한 연구 결과 (용현님)

수동 라벨링하면서 발견한 경향성 (민홍님)

데이터 어그멘테이션 여부에 따른 성능 변화

word2vec 사용 여부에 따른 변화

클래스별 분포

클래스별 평균 글자수 분포

전체 글자수 분포

특정 클래스에 자주 발견되는 단어

불용어 처리 적용 여부에 대한 성능 변화

그외 성능 변화가 있을 법 한 것들에 대해서 시각화 자료 (그래프나 테이블)이 있으면 좋을 것 같아요

클래스별 분포는 문제에 나와있으니까 빼죠 ㅎㅎㅎ

crlotwhite-mirror commented 1 year ago

@soh-yh 의견 정말 감사합니다. 네, 사실 그렇게 되면 이미 있는 라이브러리만으로 충분히 할 수 있어서 편할 것 같네요.

그리고 클래스별 분포는 발표상에서 데이터를 소개할 때 언급하면 좋겠다고 생각했는데, 이는 월요일에 한번 더 말씀 나누면 좋을 것 같습니다.

crlotwhite-mirror commented 1 year ago

지금 보니 클래스별 단어수 분포는 필요 없어보이네요.

crlotwhite-mirror / AiffelDLTon

시각화 자료 준비 #1