2noise / ChatTTS

A generative speech model for daily dialogue.
https://2noise.com
Other
27.21k stars 2.96k forks source link

在海量音频中寻找相似音色的可能 #332

Open cronrpc opened 2 weeks ago

cronrpc commented 2 weeks ago

理论上如果生成的音色范围足够广,大多数音频有办法找到相似的音色。

https://github.com/cronrpc/Audio-Speaker-Needle-In-Haystack

这里用的3ds-speaker的音频embs,可能扩充到一万人到五万人会产生质变,并且文本需要选择一个尽可能相似的。

Huggingface Sapce: https://huggingface.co/spaces/omniway/Audio-Needle-In-Haystack

image

skysbird commented 2 weeks ago

你是想做zeroshot么?

chrjxj commented 1 week ago
  1. 随机生成足够多的音频,保持音色的配置文件和emb
  2. 录制自己的声音,用自己的音频搜索出相近的音频以及对应的音色配置
  3. 用对应的音色配置,去"clone"(近似)自己的音色
tenadolanter commented 1 week ago

录制自己的声音,根据这个声音生成音色,项目地址 https://github.com/tenadolanter/chatTTS-timbre

limujun commented 1 week ago

录制自己的声音,根据这个声音生成音色,项目地址 https://github.com/tenadolanter/chatTTS-timbre

你这个生成的是torch.Size([1, 36])和chattts 的维度不一样

tenadolanter commented 1 week ago

录制自己的声音,根据这个声音生成音色,项目地址 https://github.com/tenadolanter/chatTTS-timbre

你这个生成的是torch.Size([1, 36])和chattts 的维度不一样

欢迎pr