Kedreamix / Linly-Talker

Digital Avatar Conversational System - Linly-Talker. 😄✨ Linly-Talker is an intelligent AI system that combines large language models (LLMs) with visual models to create a novel human-AI interaction method. 🤝🤖 It integrates various technologies like Whisper, Linly, Microsoft Speech Services, and SadTalker talking head generation system. 🌟🔬
https://kedreamix.github.io/
MIT License
1.67k stars 281 forks source link

大佬,要不要考虑兼容一下阿里的CosyVoice,感觉他的效果比GPT-SoVITS要好 #68

Closed miaojun22 closed 3 weeks ago

miaojun22 commented 1 month ago

大佬,要不要考虑兼容一下阿里的CosyVoice,感觉他的效果比GPT-SoVITS要好

2547881370 commented 1 month ago

CosyVoice做不到实时把

Kedreamix commented 1 month ago

感谢你的建议,也已经很多人跟我提过了,我最近会尝试一下的,包括ChatTTS的方式

Kedreamix commented 3 weeks ago

Linly-Talker已更新,加入了CosyVoice,可以多多关注和体验

CosyVoice 是阿里通义实验室开源的一款多语言语音理解模型,专注于高质量的语音合成。该模型经过超过15万小时的数据训练,支持中文、英语、日语、粤语和韩语等多种语言的语音合成。CosyVoice 在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行能力等方面表现出色。

CosyVoice 支持 one-shot 音色克隆技术,仅需3至10秒的原始音频即可生成逼真自然的模拟音色,包括韵律和情感等细节。

GitHub项目地址:https://github.com/FunAudioLLM/CosyVoice

CosyVoice 包含多个预训练的语音合成模型,主要包括:

  1. CosyVoice-300M:支持中、英、日、粤、韩等多语言的零样本(zero-shot)和跨语言(cross-lingual)语音合成。
  2. CosyVoice-300M-SFT:专注于监督微调(SFT)推理的模型。
  3. CosyVoice-300M-Instruct:支持指令推理的模型,可以生成包含特定语气、情感等元素的语音。

主要功能和特性

  1. 多语言支持:能够处理多种语言,包括中文、英语、日语、粤语和韩语等。
  2. 多风格语音合成:通过指令可以控制生成语音的语气和情感。
  3. 流式推理支持:未来将支持流式推理模式,包括KV缓存和SDPA等用于实时性优化的技术。

暂时 Linly-Talker 中加入了 预训练音色、3s极速复刻 和 跨语种复刻 三种功能,更多有趣的可以继续关注 Linly-Talker,以下是CosyVoice的一些效果