ictnlp / LLaMA-Omni

LLaMA-Omni is a low-latency and high-quality end-to-end speech interaction model built upon Llama-3.1-8B-Instruct, aiming to achieve speech capabilities at the GPT-4o level.
https://arxiv.org/abs/2409.06666
Apache License 2.0
2.56k stars 172 forks source link

中文支持 #34

Open JunweiLiang opened 1 month ago

JunweiLiang commented 1 month ago

请问你们训练语料中有中文吗,对中文语音的支持如何?

谢谢!

PaParaZz1 commented 1 month ago

对于中文语音交互,我们开源了一个级联式 Speech-to-Speech 交互框架 CleanS2S,其由级联式的 ASR + LLM + TTS pipeline 构成,或许能用于自动合成数据和交互效果探索。

这是该项目 README 效果展示的一个截图:

20241008-173750

如果各位开发者有兴趣,欢迎给我们提建议和反馈。

UkiTenzai commented 3 weeks ago

对于中文语音交互,我们开源了一个级联式 Speech-to-Speech 交互框架 CleanS2S,其由级联式的 ASR + LLM + TTS pipeline 构成,或许能用于自动合成数据和交互效果探索。

这是该项目 README 效果展示的一个截图: 20241008-173750

如果各位开发者有兴趣,欢迎给我们提建议和反馈。

大佬计划投哪篇顶刊