Closed sshzhang closed 5 years ago
1.数据预处理的时候,你这边是先fbank,然后再把时间大于300的语音序列变为多个片段.其实就相当于增加新的记录. 你尝试过先把语音序列分为几个片段,然后再fbank吗? 2. 对于time大于300的测试数据, 你这边是设置两个片段. 然而实际应用中应该是判断整句话的情感。我想问一下有什么比较好的处理整句话情感的方法吗
对于第一个问题,我不是太明白你的意思,你是说是先把语音截成等长的3s的wav吗? 对于第二个问题,实际应用中是按整句进行判断的,但是当时为了方便就用了2个片段,我觉得最好的方法进行整句测试是按wav进行输入,将整句wav的fbank输入进去,再池化的时候按卷积后的timestep进行池化。
1.数据预处理的时候,你这边是先fbank,然后再把时间大于300的语音序列变为多个片段.其实就相当于增加新的记录. 你尝试过先把语音序列分为几个片段,然后再fbank吗? 2. 对于time大于300的测试数据, 你这边是设置两个片段. 然而实际应用中应该是判断整句话的情感。我想问一下有什么比较好的处理整句话情感的方法吗