datawhalechina / DOPMC

Datawhale 开源项目管理委员会(Datawhale Open-source Project Management Committee,简称DOPMC)
203 stars 21 forks source link

hugging-audio #187

Open YikunHan42 opened 11 months ago

YikunHan42 commented 11 months ago

你是否已经阅读并同意《Datawhale开源项目指南》?

你是否已经阅读并同意《Datawhale开源项目行为准则》?

项目简介

Hugging Face Audio Course的中文版。这门课程是关于如何使用Transformers进行音频处理。Transformers是一种功能强大且多用途的深度学习架构,已在多个任务中取得了最先进的成果,包括自然语言处理、计算机视觉,以及最近的音频处理​​。

课程结构分为几个单元,涵盖不同的主题:

学习处理音频数据的具体方法,包括音频处理技术和数据准备。

了解音频应用,学习如何使用Transformers处理不同任务,如音频分类和语音识别。 探索音频Transformers架构,了解它们的不同之处及适用任务。 学习构建自己的音乐流派分类器。 深入语音识别,构建转录会议记录的模型。 学习如何从文本生成语音。 学习如何用Transformers构建真实世界的音频应用程序。 每个单元都包括理论部分,帮助你深入理解底层概念和技术。课程中还提供测验来测试你的知识并加强学习。有些章节还包括实践练习,让你有机会应用所学的知识​​。

这个课程适合有深度学习背景并且对Transformers有基本了解的学习者。不要求音频数据处理的专业知识​​。

立项理由

AI语音技术已成为当今技术领域的热点,其流行程度和应用范围正在迅速扩大。这种技术不仅在智能助手、客户服务和家庭自动化系统中得到广泛应用,还在医疗、教育、娱乐等行业中扮演着重要角色。随着技术的进步,AI语音技术变得越来越智能,能够理解、生成和转换语音,以及执行复杂的语言处理任务。此外,随着人们对便捷和无接触交互方式需求的增加,AI语音技术的流行程度预计将持续增长。

目前国内部分视频平台确实有诸如”5分钟拥有你自己的AI语音助手“这样的应用开发教程,但过于碎片化,也缺少前置知识的铺垫。国外有一些比较优质的网课CS224S,但现在已经不再开设。而Hugging Face的这一教程非常适合有深度学习基础但对语音不甚了解的学习者。

项目受众

项目亮点

这门语音课程的亮点包括:

项目规划

目录

  1. 欢迎来到课程
    • [x] 对课程的期待
  2. 使用语音数据
    • [x] 你将学到什么
    • [x] 语音数据介绍
    • [x] 加载和探索语音数据集
    • [x] 预处理语音数据
    • [x] 流式化语音数据
    • [x] 小测
    • [x] 补充阅读和材料
  3. 语音应用入门
    • [x] 语音应用概览
    • [x] 音频分类流水线
    • [x] 自动语音识别流水线
    • [x] 音频生成流水线
    • [x] 动手实践
  4. 语音Transformer架构
    • [x] Transformer回顾
    • [x] CTC架构
    • [x] Seq2Seq架构
    • [x] 语音分类架构
    • [x] 小测
    • [x] 补充阅读和材料
  5. 构建音乐流派分类器
    • [x] 你将学到和构建什么
    • [x] 音频分类预训练模型
    • [x] 微调音乐分类模型
    • [x] 使用Gradio构建demo
    • [x] 动手实践
  6. 自动语音识别
    • [x] 你将学到和构建什么
    • [x] 语音识别预训练模型
    • [x] 选择数据集
    • [x] 语音识别评估和指标
    • [x] 使用Trainer API微调自动语音识别系统
    • [x] 构建demo
    • [x] 动手实践
    • [x] 补充阅读和材料
  7. 文本-语音
    • [x] 你将学到和构建什么
    • [x] 文本-语音数据集
    • [x] 文本-语音预训练模型
    • [x] 微调SpeechT5
    • [x] 评估文本-语音模型
    • [x] 动手实践
    • [x] 补充阅读和材料
  8. 组合语音与文本
    • [x] 你将学到和构建什么
    • [x] 语音-语音翻译
    • [x] 创建语音助手
    • [x] 会议转录
    • [ ] 动手实践
    • [ ] 补充阅读和材料
  9. 结语
    • [ ] 恭喜

      时间安排

      在1月底完成初版翻译和在线文档部署

      后续考虑

      在翻译工作完成之后,考虑添加Whisper等语音大模型的使用,进一步完善教程。

项目负责人

@YikunHan42 韩颐堃 微信:Sherry___42

样章

hugging-audio

项目地址

hugging-audio

备注:发起立项申请后DOPMC成员将会在7天内给出审核意见,若7天内无反对意见则默认立项通过~

Sm1les commented 11 months ago

7天内无反对意见则默认立项通过