LIE-ON / Lieon-ai

Real-time Voice Phishing(Lie) Classifier using Echo State Networks (Echo State Network 기반 실시간 음성 거짓말 분류 인공지능)
1 stars 1 forks source link

[Refactor] preprocessing method 개선 #10

Closed LimDoHyeon closed 1 month ago

LimDoHyeon commented 3 months ago
LimDoHyeon commented 2 months ago
- 현재 feature Dataframe을 생성하는 원리는 1+(data_length - n_fft)/hop_length 개의 frame 각각에 대한 Fourier Transform을 수행하는 것인데, - 길이를 맞춘다고 time 당 amplitude 기준으로 만들어져 있는 현재 라벨 Dataframe의 길이를 같은 원리로 축소하면, 한 프레임 내에 여러 라벨이 동시에 존재하더라도 이를 강제로 버려야 하는 문제가 발생함. (또한 동일 개수로 균등 분할되었을 경우, 해당 프레임의 라벨을 무엇으로 결정할 지에 대한 문제 발생 + 정확성 이슈) - Speech Recognition 관련 문서/논문 더 찾아볼 필요 있음 (해결) - 어차피 프레임 단위로 예측을 해야 하기 때문에(충분한 맥락이 필요하므로) 한 프레임 내에서 하나의 의사 결정만 나와야 하고 - 그렇다면 두 화자 중 더 비율이 높은 (Innocent or Lie) 쪽의 라벨을 기준으로 패딩시켜버리는 게 더 나을 것 - 정확성 문제를 해결하기 위해, 프레임 단위는 충분히 작게 설계해야 함