Closed oaifaye closed 2 months ago
目前我使用的是内部高质量的播报数据,这些数据无法公开。规模是130万帧,但是目前训练效果不太好,还在查找原因。
目前我使用的是内部高质量的播报数据,这些数据无法公开。规模是130万帧,但是目前训练效果不太好,还在查找原因。
那您试没试过在MuseTalk的开源模型上fine-tune呢
目前我使用的是内部高质量的播报数据,这些数据无法公开。规模是130万帧,但是目前训练效果不太好,还在查找原因。
那您试没试过在MuseTalk的开源模型上fine-tune呢
目前的尝试都是在开源模型上微调,依旧效果不佳。当前项目推理部分效果和MuseTalk相当,推理效率提升了许多。因此现在在尝试加大数据量和提升改进训练代码。目前最新训练代码以上传,有什么改进思路欢迎提出来。
目前我使用的是内部高质量的播报数据,这些数据无法公开。规模是130万帧,但是目前训练效果不太好,还在查找原因。
那您试没试过在MuseTalk的开源模型上fine-tune呢
目前的尝试都是在开源模型上微调,依旧效果不佳。当前项目推理部分效果和MuseTalk相当,推理效率提升了许多。因此现在在尝试加大数据量和提升改进训练代码。目前最新训练代码以上传,有什么改进思路欢迎提出来。
wav2lip会训练的时候会使用一个SyncNet训练嘴部同步性,这个会不会有帮助呢
目前我使用的是内部高质量的播报数据,这些数据无法公开。规模是130万帧,但是目前训练效果不太好,还在查找原因。
那您试没试过在MuseTalk的开源模型上fine-tune呢
目前的尝试都是在开源模型上微调,依旧效果不佳。当前项目推理部分效果和MuseTalk相当,推理效率提升了许多。因此现在在尝试加大数据量和提升改进训练代码。目前最新训练代码以上传,有什么改进思路欢迎提出来。
wav2lip会训练的时候会使用一个SyncNet训练嘴部同步性,这个会不会有帮助呢
当前项目中也加入了syncnet,代码也上传了。最初使用与wav2lip类似的SyncNet架构(但是偷懒使用Whisper的特征,修改AudioEncoder网络),得到没有很大提升,后续会继续更新syncnet部分的改进,不过目前还是想将musetalk训练代码改进到能跑出开源效果的程度。
目前我使用的是内部高质量的播报数据,这些数据无法公开。规模是130万帧,但是目前训练效果不太好,还在查找原因。
那您试没试过在MuseTalk的开源模型上fine-tune呢
目前的尝试都是在开源模型上微调,依旧效果不佳。当前项目推理部分效果和MuseTalk相当,推理效率提升了许多。因此现在在尝试加大数据量和提升改进训练代码。目前最新训练代码以上传,有什么改进思路欢迎提出来。
wav2lip会训练的时候会使用一个SyncNet训练嘴部同步性,这个会不会有帮助呢
当前项目中也加入了syncnet,代码也上传了。最初使用与wav2lip类似的SyncNet架构(但是偷懒使用Whisper的特征,修改AudioEncoder网络),得到没有很大提升,后续会继续更新syncnet部分的改进,不过目前还是想将musetalk训练代码改进到能跑出开源效果的程度。
好的 我会持续关注这个项目 相信效果会越来越好
目前我使用的是内部高质量的播报数据,这些数据无法公开。规模是130万帧,但是目前训练效果不太好,还在查找原因。
那您试没试过在MuseTalk的开源模型上fine-tune呢
目前的尝试都是在开源模型上微调,依旧效果不佳。当前项目推理部分效果和MuseTalk相当,推理效率提升了许多。因此现在在尝试加大数据量和提升改进训练代码。目前最新训练代码以上传,有什么改进思路欢迎提出来。
wav2lip会训练的时候会使用一个SyncNet训练嘴部同步性,这个会不会有帮助呢
当前项目中也加入了syncnet,代码也上传了。最初使用与wav2lip类似的SyncNet架构(但是偷懒使用Whisper的特征,修改AudioEncoder网络),得到没有很大提升,后续会继续更新syncnet部分的改进,不过目前还是想将musetalk训练代码改进到能跑出开源效果的程度。
好的 我会持续关注这个项目 相信效果会越来越好
感谢支持
这个项目非常棒,感谢作者,请问一下,您训练用的什么数据集,规模是怎样的?