对代码的几点疑惑

xuanjihe / speech-emotion-recognition

speech emotion recognition using a convolutional recurrent networks based on IEMOCAP

389 stars 142 forks source link

对代码的几点疑惑 #31

Closed sshzhang closed 5 years ago

sshzhang commented 5 years ago

1.数据预处理的时候，你这边是先fbank,然后再把时间大于300的语音序列变为多个片段.其实就相当于增加新的记录. 你尝试过先把语音序列分为几个片段，然后再fbank吗? ２. 对于time大于300的测试数据, 你这边是设置两个片段. 然而实际应用中应该是判断整句话的情感。我想问一下有什么比较好的处理整句话情感的方法吗

xuanjihe commented 5 years ago

对于第一个问题，我不是太明白你的意思，你是说是先把语音截成等长的3s的wav吗？对于第二个问题，实际应用中是按整句进行判断的，但是当时为了方便就用了2个片段，我觉得最好的方法进行整句测试是按wav进行输入，将整句wav的fbank输入进去，再池化的时候按卷积后的timestep进行池化。