yongxuUSTC / sednn

deep learning based speech enhancement using keras or pytorch, make it easy to use
http://staff.ustc.edu.cn/~jundu/The%20team/yongxu/demo/SE_DNN_taslp.html
334 stars 124 forks source link

多输入,多输出问题 #27

Open bailiangze opened 5 years ago

bailiangze commented 5 years ago

您好,看了你的论文,非常厉害, 问题1:想实现一下其中的噪声告知训练,选择语音前几帧作为平均之后作为输入,请问是是不是简单的concate在之前7帧能量的后面吗??例如语音7帧为7256,噪声为1256,是否是将它拼接成8*256,送进网络。 问题2:拜读了你师弟高天博士的论文,他提到了双输出dnn增强网络,如果之前的输入是问题一所说的那样,双输出的话,请问输入依然是前几帧噪声的平均?目标参数是噪声7帧中的一帧吗?

总结下:关于这个多输入,和多输出,我想问的是,简单的在输入后面拼接矩阵,还是需要在网络上添加新的输入?谢谢了

bailiangze commented 5 years ago

还有就是数据的维数不一样,怎么进行拼接,假如输入lps为7256 我想拼接mfcc参数计算出来为713 ,是直接拼接成7*270,送进网络吗?

yongxuUSTC commented 5 years ago

Hi ,

问题1: 是的 问题2:输入依然是前几帧噪声的平均(相当于一个general的噪声信息),输出是当前帧噪声的估计

On Tue, 5 Mar 2019 at 19:37, bailiangze notifications@github.com wrote:

您好,看了你的论文,非常厉害, 问题1:想实现一下其中的噪声告知训练,选择语音前几帧作为平均之后作为输入,请问是是不是简单的concate在之前7帧能量的后面吗??例如语音7帧为7 256,噪声为1256,是否是将它拼接成8*256,送进网络。

问题2:拜读了你师弟高天博士的论文,他提到了双输出dnn增强网络,如果之前的输入是问题一所说的那样,双输出的话,请问输入依然是前几帧噪声的平均?目标参数是噪声7帧中的一帧吗?

总结下:关于这个多输入,和多输出,我想问的是,简单的在输入后面拼接矩阵,还是需要在网络上添加新的输入?谢谢了

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/yongxuUSTC/sednn/issues/27, or mute the thread https://github.com/notifications/unsubscribe-auth/AFJj0iUnLUb67f5Qe7sKND4a1ckXv1kkks5vTzfJgaJpZM4bf-5e .

yongxuUSTC commented 5 years ago

确实是 直接拼接成7*270,送进网络

On Wed, 6 Mar 2019 at 00:29, bailiangze notifications@github.com wrote:

还有就是数据的维数不一样,怎么进行拼接,假如输入lps为7256 我想拼接mfcc参数计算出来为713 ,是直接拼接成7*270,送进网络吗?

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/yongxuUSTC/sednn/issues/27#issuecomment-470015397, or mute the thread https://github.com/notifications/unsubscribe-auth/AFJj0sYplPk30DQwy24WBedB0-9kuip5ks5vT3x-gaJpZM4bf-5e .

bailiangze commented 5 years ago

谢谢了