datawhalechina / DOPMC

Datawhale 开源项目管理委员会(Datawhale Open-source Project Management Committee,简称DOPMC)
203 stars 21 forks source link

llms-from-scratch-cn #210

Open Ethan-Chen-plus opened 9 months ago

Ethan-Chen-plus commented 9 months ago

你是否已经阅读并同意《Datawhale开源项目指南》?

你是否已经阅读并同意《Datawhale开源项目行为准则》?

项目简介

pytorch实现一个LLM

立项理由

GitHub上的"rasbt/LLMs-from-scratch"项目是一个关于如何从头开始实现类似ChatGPT的大语言模型(LLM)的教程。这个项目包含了编码、预训练和微调GPT-like LLM的代码,并且是《Build a Large Language Model (From Scratch)》这本书的官方代码库。书中详细介绍了LLM的内部工作原理,并逐步指导读者创建自己的LLM,包括每个阶段的清晰文本、图表和示例。这种方法用于训练和开发自己的小型但功能性的模型,用于教育目的,与创建大型基础模型(如ChatGPT背后的模型)的方法相似,翻译后的版本可以服务于国内的开发者。

项目受众

技术背景:该项目适合有一定编程基础的人员,特别是对大型语言模型(LLM)感兴趣的开发者和研究者。 学习目标:适合那些希望深入了解LLM工作原理,并愿意投入时间从零开始构建和训练自己的LLM的学习者。 应用领域:适用于对自然语言处理、人工智能领域感兴趣的开发者,以及希望在教育或研究环境中应用LLM的人员。

项目亮点

项目亮点

  1. 系统化学习:该项目提供了一个系统化的学习路径,从理论基础到实际编码,帮助学习者全面理解LLM。
  2. 实践导向:与仅仅介绍理论或API使用不同,该项目强调实践,让学习者通过实际操作来掌握LLM的开发和训练。
  3. 深入浅出:该项目以清晰的语言、图表和示例来解释复杂的概念,使得非专业背景的学习者也能较好地理解。

类似项目比较

  1. HuggingLLM:侧重于使用ChatGPT相关API创造新功能和应用,适合希望在实际中应用ChatGPT技术的人员 2 。
  2. 面向开发者的LLM入门课程:提供官方教程,支持研究如何提升ChatGPT在中文语境下的理解与生成能力,适合具备基础Python能力的开发者 2 。
  3. Prompt Engineering提示工程指南:关注提示词开发和优化,帮助用户将LLM用于各场景和研究领域 2 。
  4. LangChain中文网:提供详细的中文文档教程,助力LLM/chatGPT应用开发,适合希望深入了解LangChain框架的学习者 2 。
  5. 构筑大语言模型应用:介绍LLM在真实世界应用的基础知识和应用,以及如何构建自己的模型,适合希望了解LLM应用开发模式和架构设计的人员 2 。
  6. mlabonne/llm-course:整合了大量LLM教材和资料,绘制学习路线图,适合初学者和有经验的数据科学家 3 。
  7. llm-action:提供了从6B到65B模型训练的实战教程,涵盖全量微调到高效微调技术,适合希望深入了解LLM训练技术的学习者 6 6 。

总结来说,“rasbt/LLMs-from-scratch”项目的独特之处在于其从零开始构建和训练LLM的实践方法,以及对LLM内部工作原理的深入讲解。与其他项目相比,它更侧重于实践和系统的理论学习,适合那些有志于深入理解并亲手实践LLM的开发者和研究者。

项目规划

Chapter Title 章节标题 Main Code (for quick access) 主代码(快速访问) All Code + Supplementary 全部代码+补充
Ch 1: Understanding Large Language Models 第1章:理解大型语言模型 No code No code
Ch 2: Working with Text Data 第2章:使用文本数据 - ch02.ipynb - dataloader.ipynb (summary) - dataloader.ipynb(摘要) - exercise-solutions.ipynb ./ch02 ./第02章
Ch 3: Coding Attention Mechanisms 第3章:编码注意力机制 - ch03.ipynb - multihead-attention.ipynb (summary) - multihead-attention.ipynb(摘要) - exercise-solutions.ipynb ./ch03 ./第03章
Ch 4: Implementing a GPT Model from Scratch 第4章:从头开始实施GPT模型 - ch04.ipynb - gpt.py (summary) - gpt.py(摘要) - exercise-solutions.ipynb ./ch04 ./第04章
Ch 5: Pretraining on Unlabeled Data 第5章:对未标记数据进行预训练 Q1 2024 2024年第一季度 ...
Ch 6: Finetuning for Text Classification 第6章:文本分类的微调 Q2 2024 2024年第二季度 ...
Ch 7: Finetuning with Human Feedback 第7章:利用人类反馈进行微调 Q2 2024 2024年第二季度 ...
Ch 8: Using Large Language Models in Practice 第8章:在实践中使用大型语言模型 Q2/3 2024 2024年第2/3季度 ...
Appendix A: Introduction to PyTorch 附录A:PyTorch简介 - code-part1.ipynb - code-part2.ipynb - DDP-script.py - exercise-solutions.ipynb ./appendix-A ./附录a

项目负责人

https://github.com/Ethan-Chen-plus wxid:wxid_f4av9mkmyzw822

备注:发起立项申请后DOPMC成员将会在7天内给出审核意见,若7天内无反对意见则默认立项通过~

Ethan-Chen-plus commented 9 months ago

分工:

章节 负责人
chp02 王训志 汪健麟
chp03 张友东 邹雨衡
chp04 陈嘉诺 高立业
Appendix 周景林 陈可为
Sm1les commented 8 months ago

7天内无反对意见则默认立项通过