Hangz-nju-cuhk / Talking-Face_PC-AVS

Code for Pose-Controllable Talking Face Generation by Implicitly Modularized Audio-Visual Representation (CVPR 2021)
Creative Commons Attribution 4.0 International
923 stars 168 forks source link

如何在自己的数据集上训练? #9

Closed dourcer closed 3 years ago

dourcer commented 3 years ago

现有视频数据,可以根据prepare_testing_files.py 、scripts/align_68.py 这两个脚本转换成元数据。但是我没有找到有关训练的脚本,我该如何训练自己的数据集?希望您能补充一下训练的示例代码或说明,期待您的回复,谢谢。

Hangz-nju-cuhk commented 3 years ago

由于是多个stage分开训练,训练代码暂时还没有开放。在models/av_model.py中其实已经把训练的所有模块和loss列出来了,目前可以参考论文和这部分代码。直接复现会存在有一定难度。

dourcer commented 3 years ago

由于是多个stage分开训练,训练代码暂时还没有开放。在models/av_model.py中其实已经把训练的所有模块和loss列出来了,目前可以参考论文和这部分代码。直接复现会存在有一定难度。

谢谢,希望早日开源训练代码细节。

dourcer commented 3 years ago

中文嘴巴抖动问题可否通过调参改善?

https://user-images.githubusercontent.com/35617526/117796959-20294400-b282-11eb-81c9-525e58190d7b.mp4

Hangz-nju-cuhk commented 3 years ago

可能可以通过扩充中文数据集进行训练解决,我观察了一下主要问题是在英语中不常见的音,比如”曾是整个岳西县、产业“,"ceng, zheng, xian, chan" 都是英文训练数据很难cover的场景。

dourcer commented 3 years ago

十分感谢,我有另外一个问题,原始图片经过cv2.warpAffine仿射变换后得到224224的图像进行图片生成是可以的,但是如图我从原始图像上直接裁剪出224224与仿射变换后相似的图像生成的质量就很差。这样就有一个问题,经过仿射变换后生成的图像是否可以还原到原图?例 image