您训练用的什么数据集，规模是怎样的？

oaifaye commented 2 months ago

这个项目非常棒，感谢作者，请问一下，您训练用的什么数据集，规模是怎样的？

IronSpiderMan commented 2 months ago

目前我使用的是内部高质量的播报数据，这些数据无法公开。规模是130万帧，但是目前训练效果不太好，还在查找原因。

oaifaye commented 2 months ago

目前我使用的是内部高质量的播报数据，这些数据无法公开。规模是130万帧，但是目前训练效果不太好，还在查找原因。

那您试没试过在MuseTalk的开源模型上fine-tune呢

IronSpiderMan commented 2 months ago

目前我使用的是内部高质量的播报数据，这些数据无法公开。规模是130万帧，但是目前训练效果不太好，还在查找原因。

那您试没试过在MuseTalk的开源模型上fine-tune呢

目前的尝试都是在开源模型上微调，依旧效果不佳。当前项目推理部分效果和MuseTalk相当，推理效率提升了许多。因此现在在尝试加大数据量和提升改进训练代码。目前最新训练代码以上传，有什么改进思路欢迎提出来。

oaifaye commented 2 months ago

目前我使用的是内部高质量的播报数据，这些数据无法公开。规模是130万帧，但是目前训练效果不太好，还在查找原因。

那您试没试过在MuseTalk的开源模型上fine-tune呢

目前的尝试都是在开源模型上微调，依旧效果不佳。当前项目推理部分效果和MuseTalk相当，推理效率提升了许多。因此现在在尝试加大数据量和提升改进训练代码。目前最新训练代码以上传，有什么改进思路欢迎提出来。

wav2lip会训练的时候会使用一个SyncNet训练嘴部同步性，这个会不会有帮助呢

IronSpiderMan commented 2 months ago

目前我使用的是内部高质量的播报数据，这些数据无法公开。规模是130万帧，但是目前训练效果不太好，还在查找原因。

那您试没试过在MuseTalk的开源模型上fine-tune呢

目前的尝试都是在开源模型上微调，依旧效果不佳。当前项目推理部分效果和MuseTalk相当，推理效率提升了许多。因此现在在尝试加大数据量和提升改进训练代码。目前最新训练代码以上传，有什么改进思路欢迎提出来。

wav2lip会训练的时候会使用一个SyncNet训练嘴部同步性，这个会不会有帮助呢

当前项目中也加入了syncnet，代码也上传了。最初使用与wav2lip类似的SyncNet架构（但是偷懒使用Whisper的特征，修改AudioEncoder网络），得到没有很大提升，后续会继续更新syncnet部分的改进，不过目前还是想将musetalk训练代码改进到能跑出开源效果的程度。

oaifaye commented 2 months ago

目前我使用的是内部高质量的播报数据，这些数据无法公开。规模是130万帧，但是目前训练效果不太好，还在查找原因。

那您试没试过在MuseTalk的开源模型上fine-tune呢

目前的尝试都是在开源模型上微调，依旧效果不佳。当前项目推理部分效果和MuseTalk相当，推理效率提升了许多。因此现在在尝试加大数据量和提升改进训练代码。目前最新训练代码以上传，有什么改进思路欢迎提出来。

wav2lip会训练的时候会使用一个SyncNet训练嘴部同步性，这个会不会有帮助呢

当前项目中也加入了syncnet，代码也上传了。最初使用与wav2lip类似的SyncNet架构（但是偷懒使用Whisper的特征，修改AudioEncoder网络），得到没有很大提升，后续会继续更新syncnet部分的改进，不过目前还是想将musetalk训练代码改进到能跑出开源效果的程度。

好的我会持续关注这个项目相信效果会越来越好

IronSpiderMan commented 2 months ago

目前我使用的是内部高质量的播报数据，这些数据无法公开。规模是130万帧，但是目前训练效果不太好，还在查找原因。

那您试没试过在MuseTalk的开源模型上fine-tune呢

目前的尝试都是在开源模型上微调，依旧效果不佳。当前项目推理部分效果和MuseTalk相当，推理效率提升了许多。因此现在在尝试加大数据量和提升改进训练代码。目前最新训练代码以上传，有什么改进思路欢迎提出来。

wav2lip会训练的时候会使用一个SyncNet训练嘴部同步性，这个会不会有帮助呢

当前项目中也加入了syncnet，代码也上传了。最初使用与wav2lip类似的SyncNet架构（但是偷懒使用Whisper的特征，修改AudioEncoder网络），得到没有很大提升，后续会继续更新syncnet部分的改进，不过目前还是想将musetalk训练代码改进到能跑出开源效果的程度。

好的我会持续关注这个项目相信效果会越来越好

感谢支持

IronSpiderMan / MuseTalkPlus

您训练用的什么数据集，规模是怎样的？ #3