- 현재 feature Dataframe을 생성하는 원리는 1+(data_length - n_fft)/hop_length 개의 frame 각각에 대한 Fourier Transform을 수행하는 것인데,
- 길이를 맞춘다고 time 당 amplitude 기준으로 만들어져 있는 현재 라벨 Dataframe의 길이를 같은 원리로 축소하면, 한 프레임 내에 여러 라벨이 동시에 존재하더라도 이를 강제로 버려야 하는 문제가 발생함. (또한 동일 개수로 균등 분할되었을 경우, 해당 프레임의 라벨을 무엇으로 결정할 지에 대한 문제 발생 + 정확성 이슈)
- Speech Recognition 관련 문서/논문 더 찾아볼 필요 있음
(해결)
- 어차피 프레임 단위로 예측을 해야 하기 때문에(충분한 맥락이 필요하므로) 한 프레임 내에서 하나의 의사 결정만 나와야 하고
- 그렇다면 두 화자 중 더 비율이 높은 (Innocent or Lie) 쪽의 라벨을 기준으로 패딩시켜버리는 게 더 나을 것
- 정확성 문제를 해결하기 위해, 프레임 단위는 충분히 작게 설계해야 함