kangfenmao / cherry-studio

🍒 Cherry Studio is a desktop client that supports for multiple LLM providers
https://cherry-ai.com
Other
685 stars 38 forks source link

语音输入输出 #41

Open exqmjmz opened 2 weeks ago

exqmjmz commented 2 weeks ago

能否实现语音输入、输出。主要用于一些涉及到语音交互的场景,比如:语言学习、字幕配音

1、在聊天框中用户可以通过麦克风进行语音输入,将语音识别成文本,并发送,可以设置语音输入结束后多长时间就自动发送文本 2、AI答复可以进行语音播放,可以通过设置成自动播放或手动播放,下载该段音频

语音模型或者引擎可以集成或者让用户设置第三方服务集成

kangfenmao commented 2 weeks ago

感谢提出反馈意见,我加入待办列表,功能完成后我会在下面回复

kangfenmao commented 1 week ago

不知道有没有什么本地模型可以支持这个

exqmjmz commented 6 days ago

不知道有没有什么本地模型可以支持这个

https://github.com/AEJays/edge-tts-nodejs/blob/master/README-cn.md

可以用edge-tts,白嫖edge的服务,不过这个是只实现了文字转音频的输出,语音转文字的识别好像还没有

exqmjmz commented 6 days ago

不知道有没有什么本地模型可以支持这个

同时实现语音转文字,文字转语音的有azureAI https://azure.microsoft.com/zh-cn/products/ai-services/ai-speech

exqmjmz commented 6 days ago

离线的有飞桨 https://github.com/PaddlePaddle/PaddleSpeech?tab=readme-ov-file

Komorebi-yaodong commented 4 days ago

不知道有没有什么本地模型可以支持这个

语音转文字有开源的whisper

xvweirong commented 1 day ago

可以参考这个: https://github.com/HaujetZhao/CapsWriter-Offline 但本地跑对PC要求还是很高的。Bilibili上有视频介绍,看上去效果不错。