Rudrabha / Wav2Lip

This repository contains the codes of "A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild", published at ACM Multimedia 2020. For HD commercial model, please try out Sync Labs
https://synclabs.so
10.77k stars 2.29k forks source link

Lip shaking problems and partial solutions for wav2lip generated videos 【wav2lip生成的视频唇语抖动问题和部分解决方案】 #476

Open fz5400 opened 1 year ago

fz5400 commented 1 year ago

Lip-synchronised videos generated from prepared videos and Chinese speech have an issue with lip shaking, which results in mouth movements and speech not matching. 通过准备好的视频和中文语音生成的唇语同步视频存在唇部抖动的问题,从而导致嘴部动作和语音不对应。

One way to solve this problem is to remove excess noise from the audio, 解决这个问题的方法之一是去除语音的多余噪音,

This method enables wav2lip to generate videos with more stable mouth movements, 这个方法可以使wav2lip生成视频的嘴部动作更加稳定,

At the end of the video, however, there is still some extra mouth motion. 但是在视频的结尾,视频人物还是会存在一些多余的嘴部动作

Is there a way to fix this problem? 是否有方法可以解决这个问题

einsqing commented 1 year ago

@fz5400 推理的视频和训练的视频的噪音都需要去除么?

fz5400 commented 1 year ago

@fz5400 推理的视频和训练的视频的噪音都需要去除么?

理论上是都去除会比较好,特别是模型推理的时候

FourTest commented 1 year ago

大佬,怎么降噪呢? 音频是阿里云生成的

FourTest commented 1 year ago

@fz5400 大佬,怎么降噪呢? 音频是阿里云生成的

fz5400 commented 1 year ago

@fz5400 大佬,怎么降噪呢? 音频是阿里云生成的

我是使用DeepFilterNet进行降噪处理的。连接如下: https://github.com/Rikorose/DeepFilterNet

FourTest commented 1 year ago

阿里云生成的MP3文件 采样率24K,双通道 听起来感觉没噪音呀

这个还需要怎么处理吗? 要转成16K的采样率?

FourTest commented 1 year ago

@fz5400 大佬,怎么降噪呢? 音频是阿里云生成的

我是使用DeepFilterNet进行降噪处理的。连接如下: https://github.com/Rikorose/DeepFilterNet

大佬,你音源是麦克风?

fz5400 commented 1 year ago

不是,是TTS生成的wav文件

FourTest commented 1 year ago

听起来有杂音吗? 我这边是阿里云生成的,感觉没什么噪音 但是还是抖动,还有就是唇形变化特别快

fz5400 commented 1 year ago

经过处理后底噪确实去除了,抖动问题的话我也还在寻找新的解决方案,唇形变化特别快可能是你的音频说话的速率快,可以尝试降低音频速率

FourTest commented 1 year ago

有没可能是中文的问题呢? 我使用的是官方的wav2lip.pth和wav2lip_gan.pth

einsqing commented 1 year ago

@fz5400 大佬,你使用DeepFilterNet进行降噪,是直接deep-filter audio-file.wav这样操作么?有没有加什么参数?比如--min-db-thresh,我降噪前某一段左右耳都能听到声音,降噪后出现了某一边耳朵听不到的情况,请问这种有什么办法么?

FourTest commented 1 year ago

@einsqing 请教一下怎么获取训练视频呢

einsqing commented 1 year ago

@FourTest 要么自己拍摄处理,要么是下载lsr2数据集,百度飞桨上有个链接可以直接下载40g的数据集

FourTest commented 1 year ago

@FourTest 要么自己拍摄处理,要么是下载lsr2数据集,百度飞桨上有个链接可以直接下载40g的数据集

我只找到了百度弄好的预训练模型,没找到数据集.大佬可以发一下链接吗

fjesikfjdskl commented 1 year ago

你好,找到链接了吗?

DogeFlow commented 1 year ago

@fz5400 大佬,抖动的问题解决了吗