语音输入输出 - Githubissues

kangfenmao / cherry-studio

🍒 Cherry Studio is a desktop client that supports for multiple LLM providers

https://cherry-ai.com

Other

1.56k stars 85 forks source link

Open exqmjmz opened 2 months ago

exqmjmz commented 2 months ago

能否实现语音输入、输出。主要用于一些涉及到语音交互的场景，比如：语言学习、字幕配音

1、在聊天框中用户可以通过麦克风进行语音输入，将语音识别成文本，并发送，可以设置语音输入结束后多长时间就自动发送文本 2、AI答复可以进行语音播放，可以通过设置成自动播放或手动播放，下载该段音频

语音模型或者引擎可以集成或者让用户设置第三方服务集成

kangfenmao commented 2 months ago

感谢提出反馈意见，我加入待办列表，功能完成后我会在下面回复

kangfenmao commented 2 months ago

不知道有没有什么本地模型可以支持这个

exqmjmz commented 2 months ago

不知道有没有什么本地模型可以支持这个

可以用edge-tts，白嫖edge的服务，不过这个是只实现了文字转音频的输出，语音转文字的识别好像还没有

exqmjmz commented 2 months ago

不知道有没有什么本地模型可以支持这个

exqmjmz commented 2 months ago

Komorebi-yaodong commented 2 months ago

不知道有没有什么本地模型可以支持这个

语音转文字有开源的whisper

xvweirong commented 2 months ago

可以参考这个: https://github.com/HaujetZhao/CapsWriter-Offline 但本地跑对PC要求还是很高的。Bilibili上有视频介绍，看上去效果不错。

DrayChou commented 2 months ago

不知道有没有什么本地模型可以支持这个

不建议直接用本地模型进行处理，这些模型下载到本地会导致项目非常巨大，而且运行起来效果也不是很好。建议直接使用在线服务，比如 gpt 家的 whisper 或者豆包什么的，既然已经填了 key 那就直接用起来，打不了加个开关或者选项。

这个可以参考 OpenCat 或者 BotGem ，都是直接调用 Azure 家的 tts 库进行语音处理。

yingzwang commented 1 month ago

语音交互很有用，期待这个功能。 API服务推荐Azure Speech，100+多语言，STT和TTS效果都很好。

exqmjmz commented 1 month ago