-
你在預處理的時候,把TextGrid中空白區域變成sil,但infer的時候使用的處理卻是使用sp作為替代,似乎是使用未訓練的sp作為空白音的phoneme。
我測試的時候,發現似乎sp會因為訓練的問題,導致合成聲音會有滋滋聲。
然後想讓您給個建議,我目前35萬步的 200位語者200hr的聲音,但是語料內的語者在使用infer的時候,相似度似乎還是不高,雖然音質都不錯,有沒有什麼訓練上的建議…
-
### 需求描述 Feature Description
tensor.numpy()执行大量数据从GPU拷贝到CPU速度缓慢,5M数据执行tensor.numpy()耗费了1.4s,完全不可接受!啥原因呢?
### 替代实现 Alternatives
_No response_
-
大佬,我构建了多说话人数据集,修改了train.py和对应的配置文件。训练的模型发音混乱是为啥呀?说话人顺序不定,生成语音质量也差。
-
![image](https://user-images.githubusercontent.com/88066528/233041833-ff20bae0-0967-4416-b6f6-1e9ec8a9371e.png)
生成是成功的,调节语速也一样,就是最后一个字的半个音会被切掉是为什么
-
Share your Chinese synthesis results or mandrain model training questions.
-
i want to generate duration when executing [https://github.com/espnet/espnet/blob/master/egs2/aishell3/tts1/local/data.sh](url)
at stege 1, the shell executes [https://github.com/espnet/espnet/blob/m…
-
**Summary[问题简述(一句话)]**
我在实验室的机器上训练,使用的是我自己收集的,并且用aishell3数据集格式标注的数据,总是报这个错误(见截图)
**Env & To Reproduce[复现与环境]**
OS: CentOS 7
Python: Anaconda+python 3.8
pytorch:1.11.0
CUDA:11.4
**Screenshots[…
-
## Others
最近在aishell3数据集上训练fastspeech2模型的时候,遇到了几个问题想请教一下。
【说明】声码器是HiFiGAN,batch size为64,MFA使用的是1.x版本,在自己的数据集上训练的mfa模型
+ 问题1:不论是基于frame-level还是phoneme-level,在duration, energy和pitch上:在大约50k…
-
我用一张A100训练AIShell3,2天了才跑75个epoch,如果要达到预训练模型那种程度,必须要跑100K step才行吗,目前我好像66k step只能听到电流声,一点语音都没有
![321](https://github.com/ConsistencyVC/ConsistencyVC-voive-conversion/assets/19279148/b682fd0a-1441-4461…
-
Hi!
I used jets to run on the aishell3 dataset, but the text information was not aligned(the synthesized speech has no semantic information).
I have tried other models (such as joint fs2 hifigan, ta…