HeySimSimi / DeepBadSentence

Deep Learning Bad Sentence Classifier
0 stars 0 forks source link

Nine Padding #1

Open HeySimSimi opened 2 months ago

HeySimSimi commented 2 months ago

먼저 좋은 내용 공유해주셔서 감사합니다. 한가지 궁금한 사항이 있습니다.

나인패딩이 제로 패딩보다 좋다고 하셨는데 어떤 의미 인지 잘 이해가 되지 않는데 추가 설명이 가능할까요?

일단 제가 생각하는 제로패딩이 사용되는 영역은 다음과 같습니다.

다음문장과 one hot encoding룰이 결정되었고 10자로 패딩한다면 다음 처럼 표현될것 같습니다. 여기서 '[PAD]'로 사용되는 index를 9로 사용한다는 의미 일까요?

  1. 문장: 아버지가 방에 들어가신다.
  2. vocabulary: [PAD] -> 0 [UNK] -> 1 아버지가 ->2 방에 -> 3 들어가신다. -> 4
  3. input sequence : [1, 2, 3, 4, 0, 0, 0, 0, 0, 0, 0]
HeySimSimi commented 2 months ago

Word가 아닌 Character를 중심으로 문단에 언급한 바와 같이 해당 모델 구성에서는 형태소나 어절 단위가 아닌, character 단위로 자르고 각각의 character 를 bit array로 변환하였습니다. 예컨대 "아"는 "1100010101000100"와 같이 변환됩니다. 이 때 zero-padding 을 하게 되면 데이터와 패딩의 변별력이 없어져서 문제가 되며, 패딩을 9로 변경함으로써 명확히 구분함으로써 성능 향상을 꾀하였다는 의미입니다.