你是否已经阅读并同意《Datawhale开源项目指南》？

[X] 我已阅读并同意《Datawhale开源项目指南》

你是否已经阅读并同意《Datawhale开源项目行为准则》？

[X] 我已阅读并同意《Datawhale开源项目行为准则》

项目简介

Hugging Face Audio Course的中文版。这门课程是关于如何使用Transformers进行音频处理。Transformers是一种功能强大且多用途的深度学习架构，已在多个任务中取得了最先进的成果，包括自然语言处理、计算机视觉，以及最近的音频处理。

课程结构分为几个单元，涵盖不同的主题：

学习处理音频数据的具体方法，包括音频处理技术和数据准备。

了解音频应用，学习如何使用Transformers处理不同任务，如音频分类和语音识别。探索音频Transformers架构，了解它们的不同之处及适用任务。学习构建自己的音乐流派分类器。深入语音识别，构建转录会议记录的模型。学习如何从文本生成语音。学习如何用Transformers构建真实世界的音频应用程序。每个单元都包括理论部分，帮助你深入理解底层概念和技术。课程中还提供测验来测试你的知识并加强学习。有些章节还包括实践练习，让你有机会应用所学的知识。

这个课程适合有深度学习背景并且对Transformers有基本了解的学习者。不要求音频数据处理的专业知识。

立项理由

AI语音技术已成为当今技术领域的热点，其流行程度和应用范围正在迅速扩大。这种技术不仅在智能助手、客户服务和家庭自动化系统中得到广泛应用，还在医疗、教育、娱乐等行业中扮演着重要角色。随着技术的进步，AI语音技术变得越来越智能，能够理解、生成和转换语音，以及执行复杂的语言处理任务。此外，随着人们对便捷和无接触交互方式需求的增加，AI语音技术的流行程度预计将持续增长。

目前国内部分视频平台确实有诸如”5分钟拥有你自己的AI语音助手“这样的应用开发教程，但过于碎片化，也缺少前置知识的铺垫。国外有一些比较优质的网课CS224S，但现在已经不再开设。而Hugging Face的这一教程非常适合有深度学习基础但对语音不甚了解的学习者。

项目受众

有深度学习背景的学习者
对Transformer有基本了解的学习者
对音频数据处理感兴趣的学习者

项目亮点

这门语音课程的亮点包括：

Transformer技术的深入探索：课程专注于Transformer在音频处理中的应用，包括语音识别、音频分类和文本到语音等任务。
实用案例学习：涵盖了构建音乐流派分类器、转录会议记录的模型等实际应用，提供了学习理论与实践相结合的机会。
面向多层次学习者：课程旨在适合具有深度学习背景的学习者，无需音频数据处理的专业知识。
全面的课程结构：从音频数据的基础处理到构建复杂的音频应用，课程结构全面，覆盖音频Transformer领域的多个关键方面。

项目规划

欢迎来到课程
- [x] 对课程的期待
使用语音数据
- [x] 你将学到什么
- [x] 语音数据介绍
- [x] 加载和探索语音数据集
- [x] 预处理语音数据
- [x] 流式化语音数据
- [x] 小测
- [x] 补充阅读和材料
语音应用入门
- [x] 语音应用概览
- [x] 音频分类流水线
- [x] 自动语音识别流水线
- [x] 音频生成流水线
- [x] 动手实践
语音Transformer架构
- [x] Transformer回顾
- [x] CTC架构
- [x] Seq2Seq架构
- [x] 语音分类架构
- [x] 小测
- [x] 补充阅读和材料
构建音乐流派分类器
- [x] 你将学到和构建什么
- [x] 音频分类预训练模型
- [x] 微调音乐分类模型
- [x] 使用Gradio构建demo
- [x] 动手实践
自动语音识别
- [x] 你将学到和构建什么
- [x] 语音识别预训练模型
- [x] 选择数据集
- [x] 语音识别评估和指标
- [x] 使用Trainer API微调自动语音识别系统
- [x] 构建demo
- [x] 动手实践
- [x] 补充阅读和材料
文本-语音
- [x] 你将学到和构建什么
- [x] 文本-语音数据集
- [x] 文本-语音预训练模型
- [x] 微调SpeechT5
- [x] 评估文本-语音模型
- [x] 动手实践
- [x] 补充阅读和材料
组合语音与文本
- [x] 你将学到和构建什么
- [x] 语音-语音翻译
- [x] 创建语音助手
- [x] 会议转录
- [ ] 动手实践
- [ ] 补充阅读和材料
结语
- [ ] 恭喜
  时间安排
  
  在1月底完成初版翻译和在线文档部署
  
  后续考虑
  
  在翻译工作完成之后，考虑添加Whisper等语音大模型的使用，进一步完善教程。

项目负责人

@YikunHan42 韩颐堃微信：Sherry___42

样章

hugging-audio

项目地址

hugging-audio

备注：发起立项申请后DOPMC成员将会在7天内给出审核意见，若7天内无反对意见则默认立项通过~

[X] 我已知悉上述备注

datawhalechina / DOPMC

hugging-audio #187