本仓库以示例代码的形式向开发者展示如何通过阿里云百炼调用通义语音大模型(包括CosyVoice、Paraformer、SenseVoice等),从而实现语音识别(语音转文字)、语音生成(文字转语音)等基础功能。以及如何结合阿里云百炼支持的大语言模型(包括通义千问、百川、月之暗面、零一万物、MiniMax等),从而实现语音聊天对话、语音分析理解、语音翻译等高阶AI功能。
开发者可以通过阿里云百炼提供的模型调用 :moneybag: 免费额度 :moneybag: 试用本仓库中的各个示例,还可以直接将这些示例集成进自己的项目中进一步开发。在开发过程中如有任何疑问,都可以通过我们的钉钉 / 微信群进行沟通交流。
更多历史发布信息请见变更记录。
您可以通过git clone
克隆示例工程,或者通过Download Zip
下载完整工程,并在本地解压到文件。
在执行示例代码之前,您需要开通阿里云账号及阿里云百炼模型服务、创建阿里云百炼API_KEY并进行必要的环境配置,以及安装阿里云百炼DashScope SDK,有关步骤的向导请参见运行示例代码的前提条件。某些示例还需要导入必要的依赖,您可以在示例代码所在目录下的README.md文件中查看具体的依赖条件。
典型用法 | 使用说明 | 开发示例 |
---|---|---|
麦克风语音识别 | 实时从麦克风录音并进行语音识别 | 麦克风实时语音识别 |
音视频文件语音识别 | 对音视频文件进行语音识别 | 单个音视频文件语音识别 |
语音合成 | 将文字合成为语音并保存到文件 | 语音合成并保存(简单模式) |
典型用法 | 使用说明 | 开发示例 |
---|---|---|
实时通话语音识别 | 实时对电话系统通话进行语音识别 | 麦克风实时语音识别 |
实时回复语音合成 | 对客服机器人回复进行语音合成 | 语音合成并播放(流式模式) |
通话录音批量语音识别 | 对客服中心通话录音文件进行批量语音识别 | 批量音视频文件语音识别(批量模式) |
典型用法 | 使用说明 | 开发示例 |
---|---|---|
信息播报 | 对各类文字进行语音合成 | 语音合成并播放(流式模式) |
大语言模型实时输出播报 | 对大语言模型产生的实时输出进行语音合成并播报 | 语音合成实时LLM输出并播放(流式模式) |
典型用法 | 使用说明 | 开发示例 |
---|---|---|
实时会议语音识别 | 实时对会议语音进行语音识别 | 麦克风实时语音识别 |
会议录音批量语音识别 | 对会议录音文件进行批量语音识别 | 批量音视频文件语音识别(批量模式) |
典型用法 | 使用说明 | 开发示例 |
---|---|---|
音视频批量语音识别 | 对音视频文件进行批量语音识别 | 批量音视频文件语音识别(批量模式) |
音视频批量富信息语音识别 | 对音视频文件中的文本/情绪/事件进行识别 | 批量音视频文件富信息语音识别(批量模式) |
音视频摘要与问答 | 对音视频文件进行语音识别,并使用大模型进行摘要总结和问答 | 视频转写并进行翻译摘要和问答 |
典型用法 | 使用说明 | 开发示例 |
---|---|---|
语音对话聊天 | 通过语音与大语言模型进行对话聊天 | Comming Soon |
常见问题请参考QA文档
本项目遵循The MIT License开源协议