kangfenmao / cherry-studio

🍒 Cherry Studio is a desktop client that supports for multiple LLM providers
https://cherry-ai.com
Other
1.56k stars 85 forks source link

语音输入输出 #41

Open exqmjmz opened 2 months ago

exqmjmz commented 2 months ago

能否实现语音输入、输出。主要用于一些涉及到语音交互的场景,比如:语言学习、字幕配音

1、在聊天框中用户可以通过麦克风进行语音输入,将语音识别成文本,并发送,可以设置语音输入结束后多长时间就自动发送文本 2、AI答复可以进行语音播放,可以通过设置成自动播放或手动播放,下载该段音频

语音模型或者引擎可以集成或者让用户设置第三方服务集成

kangfenmao commented 2 months ago

感谢提出反馈意见,我加入待办列表,功能完成后我会在下面回复

kangfenmao commented 2 months ago

不知道有没有什么本地模型可以支持这个

exqmjmz commented 2 months ago

不知道有没有什么本地模型可以支持这个

https://github.com/AEJays/edge-tts-nodejs/blob/master/README-cn.md

可以用edge-tts,白嫖edge的服务,不过这个是只实现了文字转音频的输出,语音转文字的识别好像还没有

exqmjmz commented 2 months ago

不知道有没有什么本地模型可以支持这个

同时实现语音转文字,文字转语音的有azureAI https://azure.microsoft.com/zh-cn/products/ai-services/ai-speech

exqmjmz commented 2 months ago

离线的有飞桨 https://github.com/PaddlePaddle/PaddleSpeech?tab=readme-ov-file

Komorebi-yaodong commented 2 months ago

不知道有没有什么本地模型可以支持这个

语音转文字有开源的whisper

xvweirong commented 2 months ago

可以参考这个: https://github.com/HaujetZhao/CapsWriter-Offline 但本地跑对PC要求还是很高的。Bilibili上有视频介绍,看上去效果不错。

DrayChou commented 2 months ago

不知道有没有什么本地模型可以支持这个

不建议直接用本地模型进行处理,这些模型下载到本地会导致项目非常巨大,而且运行起来效果也不是很好。 建议直接使用在线服务,比如 gpt 家的 whisper 或者 豆包 什么的,既然已经填了 key 那就直接用起来,打不了加个开关或者选项。

这个可以参考 OpenCat 或者 BotGem ,都是直接调用 Azure 家的 tts 库进行语音处理。

yingzwang commented 1 month ago

语音交互很有用,期待这个功能。 API服务推荐Azure Speech,100+多语言,STT和TTS效果都很好。

exqmjmz commented 1 month ago

siliconflow现在有音频转文字的模型了 https://docs.siliconflow.cn/api-reference/audio/create-audio-transcriptions