在海量音频中寻找相似音色的可能

2noise / ChatTTS

A generative speech model for daily dialogue.

https://2noise.com

Other

27.21k stars 2.96k forks source link

Open cronrpc opened 2 weeks ago

cronrpc commented 2 weeks ago

理论上如果生成的音色范围足够广，大多数音频有办法找到相似的音色。

这里用的3ds-speaker的音频embs，可能扩充到一万人到五万人会产生质变，并且文本需要选择一个尽可能相似的。

skysbird commented 2 weeks ago

你是想做zeroshot么？

chrjxj commented 1 week ago

tenadolanter commented 1 week ago

录制自己的声音，根据这个声音生成音色，项目地址 https://github.com/tenadolanter/chatTTS-timbre

limujun commented 1 week ago

录制自己的声音，根据这个声音生成音色，项目地址 https://github.com/tenadolanter/chatTTS-timbre

你这个生成的是torch.Size([1, 36])和chattts 的维度不一样

tenadolanter commented 1 week ago

录制自己的声音，根据这个声音生成音色，项目地址 https://github.com/tenadolanter/chatTTS-timbre

你这个生成的是torch.Size([1, 36])和chattts 的维度不一样

欢迎pr