Closed dourcer closed 3 years ago
由于是多个stage分开训练,训练代码暂时还没有开放。在models/av_model.py
中其实已经把训练的所有模块和loss列出来了,目前可以参考论文和这部分代码。直接复现会存在有一定难度。
由于是多个stage分开训练,训练代码暂时还没有开放。在
models/av_model.py
中其实已经把训练的所有模块和loss列出来了,目前可以参考论文和这部分代码。直接复现会存在有一定难度。
谢谢,希望早日开源训练代码细节。
可能可以通过扩充中文数据集进行训练解决,我观察了一下主要问题是在英语中不常见的音,比如”曾是整个岳西县、产业“,"ceng, zheng, xian, chan" 都是英文训练数据很难cover的场景。
十分感谢,我有另外一个问题,原始图片经过cv2.warpAffine仿射变换后得到224224的图像进行图片生成是可以的,但是如图我从原始图像上直接裁剪出224224与仿射变换后相似的图像生成的质量就很差。这样就有一个问题,经过仿射变换后生成的图像是否可以还原到原图?例
现有视频数据,可以根据prepare_testing_files.py 、scripts/align_68.py 这两个脚本转换成元数据。但是我没有找到有关训练的脚本,我该如何训练自己的数据集?希望您能补充一下训练的示例代码或说明,期待您的回复,谢谢。