如何在自己的数据集上训练？

Hangz-nju-cuhk / Talking-Face_PC-AVS

Code for Pose-Controllable Talking Face Generation by Implicitly Modularized Audio-Visual Representation (CVPR 2021)

Creative Commons Attribution 4.0 International

923 stars 168 forks source link

Closed dourcer closed 3 years ago

dourcer commented 3 years ago

现有视频数据，可以根据prepare_testing_files.py 、scripts/align_68.py 这两个脚本转换成元数据。但是我没有找到有关训练的脚本，我该如何训练自己的数据集？希望您能补充一下训练的示例代码或说明，期待您的回复，谢谢。

Hangz-nju-cuhk commented 3 years ago

由于是多个stage分开训练，训练代码暂时还没有开放。在models/av_model.py中其实已经把训练的所有模块和loss列出来了，目前可以参考论文和这部分代码。直接复现会存在有一定难度。

dourcer commented 3 years ago

由于是多个stage分开训练，训练代码暂时还没有开放。在models/av_model.py中其实已经把训练的所有模块和loss列出来了，目前可以参考论文和这部分代码。直接复现会存在有一定难度。

谢谢，希望早日开源训练代码细节。

dourcer commented 3 years ago

中文嘴巴抖动问题可否通过调参改善？

Hangz-nju-cuhk commented 3 years ago

可能可以通过扩充中文数据集进行训练解决，我观察了一下主要问题是在英语中不常见的音，比如”曾是整个岳西县、产业“，"ceng, zheng, xian, chan" 都是英文训练数据很难cover的场景。

dourcer commented 3 years ago

十分感谢，我有另外一个问题，原始图片经过cv2.warpAffine仿射变换后得到224224的图像进行图片生成是可以的，但是如图我从原始图像上直接裁剪出224224与仿射变换后相似的图像生成的质量就很差。这样就有一个问题，经过仿射变换后生成的图像是否可以还原到原图？例