IronSpiderMan / MuseTalkPlus

基于MuseTalk的数字人代码。
19 stars 3 forks source link

您训练用的什么数据集,规模是怎样的? #3

Closed oaifaye closed 2 months ago

oaifaye commented 2 months ago

这个项目非常棒,感谢作者,请问一下,您训练用的什么数据集,规模是怎样的?

IronSpiderMan commented 2 months ago

目前我使用的是内部高质量的播报数据,这些数据无法公开。规模是130万帧,但是目前训练效果不太好,还在查找原因。

oaifaye commented 2 months ago

目前我使用的是内部高质量的播报数据,这些数据无法公开。规模是130万帧,但是目前训练效果不太好,还在查找原因。

那您试没试过在MuseTalk的开源模型上fine-tune呢

IronSpiderMan commented 2 months ago

目前我使用的是内部高质量的播报数据,这些数据无法公开。规模是130万帧,但是目前训练效果不太好,还在查找原因。

那您试没试过在MuseTalk的开源模型上fine-tune呢

目前的尝试都是在开源模型上微调,依旧效果不佳。当前项目推理部分效果和MuseTalk相当,推理效率提升了许多。因此现在在尝试加大数据量和提升改进训练代码。目前最新训练代码以上传,有什么改进思路欢迎提出来。

oaifaye commented 2 months ago

目前我使用的是内部高质量的播报数据,这些数据无法公开。规模是130万帧,但是目前训练效果不太好,还在查找原因。

那您试没试过在MuseTalk的开源模型上fine-tune呢

目前的尝试都是在开源模型上微调,依旧效果不佳。当前项目推理部分效果和MuseTalk相当,推理效率提升了许多。因此现在在尝试加大数据量和提升改进训练代码。目前最新训练代码以上传,有什么改进思路欢迎提出来。

wav2lip会训练的时候会使用一个SyncNet训练嘴部同步性,这个会不会有帮助呢

IronSpiderMan commented 2 months ago

目前我使用的是内部高质量的播报数据,这些数据无法公开。规模是130万帧,但是目前训练效果不太好,还在查找原因。

那您试没试过在MuseTalk的开源模型上fine-tune呢

目前的尝试都是在开源模型上微调,依旧效果不佳。当前项目推理部分效果和MuseTalk相当,推理效率提升了许多。因此现在在尝试加大数据量和提升改进训练代码。目前最新训练代码以上传,有什么改进思路欢迎提出来。

wav2lip会训练的时候会使用一个SyncNet训练嘴部同步性,这个会不会有帮助呢

当前项目中也加入了syncnet,代码也上传了。最初使用与wav2lip类似的SyncNet架构(但是偷懒使用Whisper的特征,修改AudioEncoder网络),得到没有很大提升,后续会继续更新syncnet部分的改进,不过目前还是想将musetalk训练代码改进到能跑出开源效果的程度。

oaifaye commented 2 months ago

目前我使用的是内部高质量的播报数据,这些数据无法公开。规模是130万帧,但是目前训练效果不太好,还在查找原因。

那您试没试过在MuseTalk的开源模型上fine-tune呢

目前的尝试都是在开源模型上微调,依旧效果不佳。当前项目推理部分效果和MuseTalk相当,推理效率提升了许多。因此现在在尝试加大数据量和提升改进训练代码。目前最新训练代码以上传,有什么改进思路欢迎提出来。

wav2lip会训练的时候会使用一个SyncNet训练嘴部同步性,这个会不会有帮助呢

当前项目中也加入了syncnet,代码也上传了。最初使用与wav2lip类似的SyncNet架构(但是偷懒使用Whisper的特征,修改AudioEncoder网络),得到没有很大提升,后续会继续更新syncnet部分的改进,不过目前还是想将musetalk训练代码改进到能跑出开源效果的程度。

好的 我会持续关注这个项目 相信效果会越来越好

IronSpiderMan commented 2 months ago

目前我使用的是内部高质量的播报数据,这些数据无法公开。规模是130万帧,但是目前训练效果不太好,还在查找原因。

那您试没试过在MuseTalk的开源模型上fine-tune呢

目前的尝试都是在开源模型上微调,依旧效果不佳。当前项目推理部分效果和MuseTalk相当,推理效率提升了许多。因此现在在尝试加大数据量和提升改进训练代码。目前最新训练代码以上传,有什么改进思路欢迎提出来。

wav2lip会训练的时候会使用一个SyncNet训练嘴部同步性,这个会不会有帮助呢

当前项目中也加入了syncnet,代码也上传了。最初使用与wav2lip类似的SyncNet架构(但是偷懒使用Whisper的特征,修改AudioEncoder网络),得到没有很大提升,后续会继续更新syncnet部分的改进,不过目前还是想将musetalk训练代码改进到能跑出开源效果的程度。

好的 我会持续关注这个项目 相信效果会越来越好

感谢支持