Closed superhg2012 closed 4 years ago
遇到一个问题,T2生成的alignment数据中mel的维度与mel_target实际mel帧数不一致,这个是怎么处理呢?以mel_target的mel帧数为准么?
需要统一维度的吧
根据实际mel帧数,对alignment做了截断处理,可以了。但是遇到另外一个问题,duration里面出现重复此为0的时候会导致length_regulartor的处理出现bug,一直没有解决这个问题。 这里面是允许出现0的吧,我看你提供的alignment.zip里面有的alignment数据也是存在0的
根据实际mel帧数,对alignment做了截断处理,可以了。但是遇到另外一个问题,duration里面出现重复此为0的时候会导致length_regulartor的处理出现bug,一直没有解决这个问题。 这里面是允许出现0的吧,我看你提供的alignment.zip里面有的alignment数据也是存在0的
是的
mel_target 是ground_truth, 还是用teacher model(T2)预测出来的?有一些alignment的帧数是要少于mel_target的,这种是做padding处理吧
发现你这边在预测alignment的时候把ground_truth的mel特征给过去了
发现你这边在预测alignment的时候把ground_truth的mel特征给过去了
没错,这样做tacotron2预测出来的alignment才和gt一样,且这样也更精准
嗯嗯,是的,卡在这个alignment数据上有一段时间,总是跟实际的mel_target维度对不上。还有个问题,为什么没有eval模式?只有训练模式?
嗯嗯,是的,卡在这个alignment数据上有一段时间,总是跟实际的mel_target维度对不上。还有个问题,为什么没有eval模式?只有训练模式?
python3 synthesis.py
是训练的时候,边训练边验证这种模式,不是训练好了再拿来做eval合成
是训练的时候,边训练边验证这种模式,不是训练好了再拿来做eval合成
哦哦,没有做这种方式,TTS也不太需要这种方法吧,你可以用synthesis.py对每个生成的checkpoint进行测试
嗯,我是按照T2的训练思路实现的fastspeech,遇到了这个问题,正在想方法解决,tensorflow实现的坑太多了
嗯,我是按照T2的训练思路实现的fastspeech,遇到了这个问题,正在想方法解决,tensorflow实现的坑太多了
加油(ง •_•)ง
遇到一个问题,T2生成的alignment数据中mel的维度与mel_target实际mel帧数不一致,这个是怎么处理呢?以mel_target的mel帧数为准么?