Plachtaa / VITS-fast-fine-tuning

This repo is a pipeline of VITS finetuning for fast speaker adaptation TTS, and many-to-many voice conversion
Apache License 2.0
4.69k stars 703 forks source link

分享一个CJE模型,用比较标准的中英日文重新训练了 #532

Open shirubei opened 9 months ago

shirubei commented 9 months ago

在作者提供的CJE模型的基础上,中文和英文,日语都用了比较标准的女声语音重新训练了。 STD是中文原音,LJ是英文的原音,ACTRESS是日文原声。 中英文都是300句,日文130句。 训练了100 epoch https://drive.google.com/file/d/1wgt6hSB8n9m3Zu4gmu0MAFRJkOJf-Ik9/view?usp=sharing

这次中英文同上,日文换了一个,男声(感觉像柯南的配音)。 STD是中文原音,LJ是英文的原音,ONO是日文原声。 中英日文都是300句。 训练了72 epoch https://drive.google.com/file/d/1kNKIs8_SykWekQGn7pz0rc6hUen-SPXm/view?usp=sharing 感谢 @Polaris1949 提供了上述2个日文语音

重要声明:模型仅供学习研究用,用于其他目的后果自负。

shirubei commented 9 months ago

补充一点,中英混读的话,语言选Mix,提示文本用以下这种形式,纯中文或者纯英文的话只需要语言设置那一项选择好了就OK: [ZH]昨天晚上把手机弄丢了。今天去买把[ZH][EN]iPhone[EN]

renjunok commented 9 months ago

朋友,用了一下你分享的模型,效果很好。

1、能分享一下你的微调过程吗,我用自己的素材语音微调了大约300epochs但效果还是很差。 2、能在你提供的模型基础上微调吗?

shirubei commented 9 months ago

朋友,用了一下你分享的模型,效果很好。

1、能分享一下你的微调过程吗,我用自己的素材语音微调了大约300epochs但效果还是很差。 2、能在你提供的模型基础上微调吗?

我就是按照现在这个repo一步一步走下来的啊。效果不好估计是语音本身的问题。我用的语音也是网上下载的,在此之上微调如果不商用应该没有问题。

renjunok commented 9 months ago

朋友,用了一下你分享的模型,效果很好。 1、能分享一下你的微调过程吗,我用自己的素材语音微调了大约300epochs但效果还是很差。 2、能在你提供的模型基础上微调吗?

我就是按照现在这个repo一步一步走下来的啊。效果不好估计是语音本身的问题。我用的语音也是网上下载的,在此之上微调如果不商用应该没有问题。

谢谢回复!

你大约训练了多少epochs?

shirubei commented 9 months ago

朋友,用了一下你分享的模型,效果很好。 1、能分享一下你的微调过程吗,我用自己的素材语音微调了大约300epochs但效果还是很差。 2、能在你提供的模型基础上微调吗?

我就是按照现在这个repo一步一步走下来的啊。效果不好估计是语音本身的问题。我用的语音也是网上下载的,在此之上微调如果不商用应该没有问题。

谢谢回复!

你大约训练了多少epochs?

240 epochs, 中英文各300个句子。

renjunok commented 9 months ago

朋友,用了一下你分享的模型,效果很好。 1、能分享一下你的微调过程吗,我用自己的素材语音微调了大约300epochs但效果还是很差。 2、能在你提供的模型基础上微调吗?

我就是按照现在这个repo一步一步走下来的啊。效果不好估计是语音本身的问题。我用的语音也是网上下载的,在此之上微调如果不商用应该没有问题。

谢谢回复! 你大约训练了多少epochs?

240 epochs, 中英文各300个句子。

我训练了400多效果依然很差也不知道为什么,谢谢回复,我再找找原因.

wei-jen-chen commented 9 months ago

朋友您好,可以跟您請教一下你用於訓練的語音來源嗎? 謝謝

shirubei commented 9 months ago

朋友您好,可以跟您請教一下你用於訓練的語音來源嗎? 謝謝

中文是标贝,英文是LJ speech

wei-jen-chen commented 9 months ago

朋友您好,可以跟您請教一下你用於訓練的語音來源嗎? 謝謝

中文是标贝,英文是LJ speech

謝謝回覆!

Polaris1949 commented 8 months ago

如果有人提供比较标准的日语语音,可以再把日语加进去。

JVS (Japanese versatile speech) corpus https://sites.google.com/site/shinnosuketakamichi/research-topics/jvs_corpus

希望楼主添加,谢谢!

EDIT: 这个数据集更适合语音识别。音声合成使用 JSUT 数据集 更好。

shirubei commented 8 months ago

如果有人提供比较标准的日语语音,可以再把日语加进去。

日语通用语音语料库 / Japanese versatile speech corpus https://sites.google.com/site/shinnosuketakamichi/research-topics/jvs_corpus

希望楼主添加,谢谢!

感谢,我这里训练好了会更新本帖子。敬请期待。

ccjackcong commented 8 months ago

大佬,你是本地训练吗?我在colab总是在处理数据那不出错,尝试各种依赖版本也没有作用。

shirubei commented 8 months ago

大佬,你是本地训练吗?我在colab总是在处理数据那不出错,尝试各种依赖版本也没有作用。

必须本地啊

shirubei commented 8 months ago

如果有人提供比较标准的日语语音,可以再把日语加进去。

日语通用语音语料库 / Japanese versatile speech corpus https://sites.google.com/site/shinnosuketakamichi/research-topics/jvs_corpus

希望楼主添加,谢谢!

模型库已经更新,把日语部分加上了。不过因为您给的日文,它其实是一个多人的语音,每个人只有130句左右,所以日语部分就是拿其中一个人的语音取训练的,相对于中英文都是300句,日文稍微少了点,不过效果感觉也还可以。 感谢提供数据!

Polaris1949 commented 8 months ago

如果有人提供比较标准的日语语音,可以再把日语加进去。

JVS (Japanese versatile speech) corpus https://sites.google.com/site/shinnosuketakamichi/research-topics/jvs_corpus

希望楼主添加,谢谢!

模型库已经更新,把日语部分加上了。不过因为您给的日文,它其实是一个多人的语音,每个人只有130句左右,所以日语部分就是拿其中一个人的语音取训练的,相对于中英文都是300句,日文稍微少了点,不过效果感觉也还可以。 感谢提供数据!

抱歉,我记错数据集了,下面这个数据集应该更适合音声合成:

JSUT (Japanese speech corpus of Saruwatari-lab., University of Tokyo) https://sites.google.com/site/shinnosuketakamichi/publication/jsut

感谢楼主的分享和回复!

shirubei commented 8 months ago

如果有人提供比较标准的日语语音,可以再把日语加进去。

~JVS (Japanese versatile speech) corpus https://sites.google.com/site/shinnosuketakamichi/research-topics/jvs_corpus~ 希望楼主添加,谢谢!

模型库已经更新,把日语部分加上了。不过因为您给的日文,它其实是一个多人的语音,每个人只有130句左右,所以日语部分就是拿其中一个人的语音取训练的,相对于中英文都是300句,日文稍微少了点,不过效果感觉也还可以。 感谢提供数据!

抱歉,我记错数据集了,下面这个数据集应该更适合音声合成:

JSUT (Japanese speech corpus of Saruwatari-lab., University of Tokyo) https://sites.google.com/site/shinnosuketakamichi/publication/jsut

感谢楼主的分享和回复!

好的,感谢!我再拿这个试试。

tuotuoshao commented 8 months ago

模型不能用于推理吗,我用你的第一个链接模型推理出来的中英日都没有人声是机器噪声

shirubei commented 8 months ago

模型不能用于推理吗,我用你的第一个链接模型推理出来的中英日都没有人声是机器噪声

当然是可以的啊,估计你没参照zip里面的json文件

wertyac commented 7 months ago

楼主,咨询一下,我用CJE模型练了之后,说中文感觉像外国人说的,不标准,你这个CJE模型有这个问题吗?

shirubei commented 7 months ago

楼主,咨询一下,我用CJE模型练了之后,说中文感觉像外国人说的,不标准,你这个CJE模型有这个问题吗?

当然是没问题的我才会分享啊

wertyac commented 7 months ago

厉害了,奇怪我都练了2000epoch了,发现中文发音像外国人,用的原神的语音库,奇怪呀。

shirubei commented 7 months ago

厉害了,奇怪我都练了2000epoch了,发现中文发音像外国人,用的原神的语音库,奇怪呀。

这个我就不知道了,我这个是拿非常标准的语音再训练的

shirubei commented 6 months ago

厉害了,奇怪我都练了2000epoch了,发现中文发音像外国人,用的原神的语音库,奇怪呀。

@wertyac 仔细想了一下,你看一下我的另一个帖子 #501 如果还不行,估计是原神语音包本身就不太好,我用的是相对比较标准或者非常标准的中文女声。

davechan0204 commented 6 months ago

謝謝大大們的分享 但小白的我想問一個問題為什麼我做的粵語出來會像在說鄉音一樣

我的做法是下載了一個粵語 YT 的語音 做成了600多條短語音 用了Plachtaa 的 CJE 跑了

python scripts/denoise_audio.py python scripts/short_audio_transcribe.py --languages CJE --whisper_size large-v2 python scripts/resample.py python preprocess_v2.py --languages CJE python finetune_speaker_v2.py -m ./OUTPUT_MODEL --max_epochs 3000 --drop_speaker_embed True

過程一路在試驗AI說得怎樣 但現在到 Epoch: 2621 了 說出來還是有鄉音一樣 想問我是那一步做錯了嗎?

shirubei commented 6 months ago

謝謝大大們的分享 但小白的我想問一個問題為什麼我做的粵語出來會像在說鄉音一樣

我的做法是下載了一個粵語 YT 的語音 做成了600多條短語音 用了Plachtaa 的 CJE 跑了 過程一路在試驗AI說得怎樣 但現在到 Epoch: 2621 了 說出來還是有鄉音一樣 想問我是那一步做錯了嗎?

我估计你没明白这里面的处理,整个流程里面,最开始是根据语音进行识别,让机器明白你输入的语音对应的文字是什么(就是所谓的标注),通过训练数据得到这个对应关系。既然作者没有提到该工具支持粤语,那你直接拿过来处理粤语肯定不行的。

davechan0204 commented 6 months ago

謝謝大大們的分享 但小白的我想問一個問題為什麼我做的粵語出來會像在說鄉音一樣 我的做法是下載了一個粵語 YT 的語音 做成了600多條短語音 用了Plachtaa 的 CJE 跑了 過程一路在試驗AI說得怎樣 但現在到 Epoch: 2621 了 說出來還是有鄉音一樣 想問我是那一步做錯了嗎?

我估计你没明白这里面的处理,整个流程里面,最开始是根据语音进行识别,让机器明白你输入的语音对应的文字是什么(就是所谓的标注),通过训练数据得到这个对应关系。既然作者没有提到该工具支持粤语,那你直接拿过来处理粤语肯定不行的。

标注是指下面的嗎? ./custom_character_voice/custom_character_voice/processed_344.wav|custom_character_voice|[ZH]你其實你唔可以話絕對唔係一間細嘅公司絕對唔係一間廢嘅公司嚟㗎[ZH] 我有看一些 字都是正確的 還是要轉到其他工具才可以做到粤语

shirubei commented 6 months ago

謝謝大大們的分享 但小白的我想問一個問題為什麼我做的粵語出來會像在說鄉音一樣 我的做法是下載了一個粵語 YT 的語音 做成了600多條短語音 用了Plachtaa 的 CJE 跑了 過程一路在試驗AI說得怎樣 但現在到 Epoch: 2621 了 說出來還是有鄉音一樣 想問我是那一步做錯了嗎?

我估计你没明白这里面的处理,整个流程里面,最开始是根据语音进行识别,让机器明白你输入的语音对应的文字是什么(就是所谓的标注),通过训练数据得到这个对应关系。既然作者没有提到该工具支持粤语,那你直接拿过来处理粤语肯定不行的。

标注是指下面的嗎? ./custom_character_voice/custom_character_voice/processed_344.wav|custom_character_voice|[ZH]你其實你唔可以話絕對唔係一間細嘅公司絕對唔係一間廢嘅公司嚟㗎[ZH] 我有看一些 字都是正確的 還是要轉到其他工具才可以做到粤语

你给的那个是识别,但是程序内部还需要有一个把文字转化为符号的过程(可以叫注音吧,就比如“学习”这2个汉字我们用拼音标注的话就是 xue2xi2 这样的东西,当然这个只是为了说明,系统内部真正的可能不是这样子)。 程序里面没有对广东话文字进行标注的模块,只是按照普通汉字的标注方式,那最后它训练出来的也不是你想要的效果。

davechan0204 commented 6 months ago

謝謝大大們的分享 但小白的我想問一個問題為什麼我做的粵語出來會像在說鄉音一樣 我的做法是下載了一個粵語 YT 的語音 做成了600多條短語音 用了Plachtaa 的 CJE 跑了 過程一路在試驗AI說得怎樣 但現在到 Epoch: 2621 了 說出來還是有鄉音一樣 想問我是那一步做錯了嗎?

我估计你没明白这里面的处理,整个流程里面,最开始是根据语音进行识别,让机器明白你输入的语音对应的文字是什么(就是所谓的标注),通过训练数据得到这个对应关系。既然作者没有提到该工具支持粤语,那你直接拿过来处理粤语肯定不行的。

标注是指下面的嗎? ./custom_character_voice/custom_character_voice/processed_344.wav|custom_character_voice|[ZH]你其實你唔可以話絕對唔係一間細嘅公司絕對唔係一間廢嘅公司嚟㗎[ZH] 我有看一些 字都是正確的 還是要轉到其他工具才可以做到粤语

你给的那个是识别,但是程序内部还需要有一个把文字转化为符号的过程(可以叫注音吧,就比如“学习”这2个汉字我们用拼音标注的话就是 xue2xi2 这样的东西,当然这个只是为了说明,系统内部真正的可能不是这样子)。 程序里面没有对广东话文字进行标注的模块,只是按照普通汉字的标注方式,那最后它训练出来的也不是你想要的效果。

嗯~了解了一點 謝謝大大的指導

CasonTsai commented 2 weeks ago

请问大佬,使用Mix中英,推理是使用cmd_inference.py这个文件么,,我用的时候发现会出错,导致中断 image image

shirubei commented 1 week ago

请问大佬,使用Mix中英,推理是使用cmd_inference.py这个文件么,,我用的时候发现会出错,导致中断 image image

我一直用的是 VC_inference.py 这个啊,没用过cmd的那个

YunChenqwq commented 1 week ago

感谢大佬

CasonTsai commented 1 week ago

感谢大佬

[ZH]昨天晚上把手机弄丢了。今天去买把[ZH][EN]iPhone[EN]

谢谢大佬,搞好了