crlotwhite-mirror / AiffelDLTon

온라인 4기/NLP/딥러닝경기 팀의 레포
0 stars 0 forks source link

시각화 자료 준비 #1

Open crlotwhite-mirror opened 1 year ago

crlotwhite-mirror commented 1 year ago

그외 성능 변화가 있을 법 한 것들에 대해서 시각화 자료 (그래프나 테이블)이 있으면 좋을 것 같아요

crlotwhite-mirror commented 1 year ago

전체 길이에 대한 분포 total len of text

서브 텍스트의 분포 length of subtext

BERT가 512자라는 기준을 가지고 있어서 고민했는데, 전체 분포를 보니 적당히 컷 해도 될 것 같네요. 400자 기준으로 컷하고, 데이터 증강합시다.

crlotwhite-mirror commented 1 year ago

https://github.com/toriving/KoEDA

위 사이트에 여러 데이터 증강 기법이 있는데 이거를 적당히 정리해서 써먹읍시다.

화자 swap은 한번 의견 들어보고 싶네요.

soh-yh commented 1 year ago

개인적인 의견으로는 화자 swap은 별 효과는 없지 않을까 싶습니다

soh-yh commented 1 year ago
  • 단어 분포에 대한 연구 결과 (용현님)
  • 수동 라벨링하면서 발견한 경향성 (민홍님)
  • 데이터 어그멘테이션 여부에 따른 성능 변화
  • word2vec 사용 여부에 따른 변화
  • 클래스별 분포
  • 클래스별 평균 글자수 분포
  • 전체 글자수 분포
  • 특정 클래스에 자주 발견되는 단어
  • 불용어 처리 적용 여부에 대한 성능 변화

그외 성능 변화가 있을 법 한 것들에 대해서 시각화 자료 (그래프나 테이블)이 있으면 좋을 것 같아요

클래스별 분포는 문제에 나와있으니까 빼죠 ㅎㅎㅎ

crlotwhite-mirror commented 1 year ago

@soh-yh 의견 정말 감사합니다. 네, 사실 그렇게 되면 이미 있는 라이브러리만으로 충분히 할 수 있어서 편할 것 같네요.

그리고 클래스별 분포는 발표상에서 데이터를 소개할 때 언급하면 좋겠다고 생각했는데, 이는 월요일에 한번 더 말씀 나누면 좋을 것 같습니다.

crlotwhite-mirror commented 1 year ago

지금 보니 클래스별 단어수 분포는 필요 없어보이네요.