halfzm / v2vt

video to video translation with voice clone and lip synchronization|带有语音克隆和口型同步的视频翻译,支持中英互换
Apache License 2.0
108 stars 25 forks source link
ai cv nlp v2v

English | 中文

带有口型同步功能的视频翻译

效果演示

详见res.mp4

技术栈

环境搭建

  1. 安装ffmpeg并添加到环境变量,或者是直接把相应可执行程序放到当前目录ffmpeg文件夹

    ffmpeg
    |- ffmpeg.exe
    |- ffprobe.exe
    ...
  2. 安装依赖

    
    git clone git@github.com:halfzm/v2vt.git

conda create -n v2vt_clone python=3.11.0 conda activate v2vt_clone

cd v2vt_clone pip install -r requirements.txt pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118


3. 把`openvoice`中需要的[模型](https://myshell-public-repo-hosting.s3.amazonaws.com/checkpoints_1226.zip)放到`openvoice_checkpoints`文件夹中,目录结构应该如下[optional]

openvoice_checkpoints |- base_speakers |- ... |- converter |- ... ...


4. 把`tts`中需要的[模型](https://huggingface.co/coqui/XTTS-v2/tree/main)放到`tts_models`文件夹中,目录结构应该如下

tts_models |- tts_models--multilingual--multi-dataset--xtts_v2 |- config.json |- model.pth |- speakers_xtts.pth |- vocal.json |- ... ...


5. 把`video_retalking`中需要的[模型](https://drive.google.com/drive/folders/18rhjMpxK8LVVxf7PI6XwOidt8Vouv_H0?usp=share_link)放到`video-retalking/checkpoints`文件夹中,目录结构应该如下

video-retalking |- checkpoints |- ... ...


## 使用说明
- 快速启动

python app.py


- 关于输入  
输入视频不能太短,否则语音克隆的时候报错(最好不要低于5S)

- 关于输出  
默认是输出到当前目录下的output.mp4,也可以在webui中直接下载

## 其它
licence和code_of_conduct和[video-retalking](https://github.com/OpenTalker/video-retalking)项目一致  
详见LICENSE和CODE_OF_CONDUCT