Open YoungSeng opened 1 year ago
每次匹配是4个codes(Gesture VQVAE的Downsample rate=8,即对应32帧,BEAT为60fps,即约为0.5s)的划窗生成
手势库中的database是按每32个codes一段保存的,是的,没有写对短于4s的padding代码;其实对长于4s的的最后一段不足4s的好像也没有处理直接丢掉了
抱歉有疑问,是的,在生成自己的音频时不是总是文本信息,所以方便测试默认用语音的音频,代码很杂乱,供参考
每次匹配是4个codes(Gesture VQVAE的Downsample rate=8,即对应32帧,BEAT为60fps,即约为0.5s)的划窗生成
手势库中的database是按每32个codes一段保存的,是的,没有写对短于4s的padding代码;其实对长于4s的的最后一段不足4s的好像也没有处理直接丢掉了
抱歉有疑问,是的,在生成自己的音频时不是总是文本信息,所以方便测试默认用语音的音频,代码很杂乱,供参考