llms-from-scratch-cn - Githubissues

Ethan-Chen-plus commented 9 months ago

你是否已经阅读并同意《Datawhale开源项目指南》？

[X] 我已阅读并同意《Datawhale开源项目指南》

你是否已经阅读并同意《Datawhale开源项目行为准则》？

[X] 我已阅读并同意《Datawhale开源项目行为准则》

项目简介

用pytorch实现一个LLM

立项理由

GitHub上的"rasbt/LLMs-from-scratch"项目是一个关于如何从头开始实现类似ChatGPT的大语言模型（LLM）的教程。这个项目包含了编码、预训练和微调GPT-like LLM的代码，并且是《Build a Large Language Model (From Scratch)》这本书的官方代码库。书中详细介绍了LLM的内部工作原理，并逐步指导读者创建自己的LLM，包括每个阶段的清晰文本、图表和示例。这种方法用于训练和开发自己的小型但功能性的模型，用于教育目的，与创建大型基础模型（如ChatGPT背后的模型）的方法相似，翻译后的版本可以服务于国内的开发者。

项目受众

技术背景：该项目适合有一定编程基础的人员，特别是对大型语言模型（LLM）感兴趣的开发者和研究者。学习目标：适合那些希望深入了解LLM工作原理，并愿意投入时间从零开始构建和训练自己的LLM的学习者。应用领域：适用于对自然语言处理、人工智能领域感兴趣的开发者，以及希望在教育或研究环境中应用LLM的人员。

项目亮点

系统化学习：该项目提供了一个系统化的学习路径，从理论基础到实际编码，帮助学习者全面理解LLM。
实践导向：与仅仅介绍理论或API使用不同，该项目强调实践，让学习者通过实际操作来掌握LLM的开发和训练。
深入浅出：该项目以清晰的语言、图表和示例来解释复杂的概念，使得非专业背景的学习者也能较好地理解。

类似项目比较

HuggingLLM：侧重于使用ChatGPT相关API创造新功能和应用，适合希望在实际中应用ChatGPT技术的人员 2 。
面向开发者的LLM入门课程：提供官方教程，支持研究如何提升ChatGPT在中文语境下的理解与生成能力，适合具备基础Python能力的开发者 2 。
Prompt Engineering提示工程指南：关注提示词开发和优化，帮助用户将LLM用于各场景和研究领域 2 。
LangChain中文网：提供详细的中文文档教程，助力LLM/chatGPT应用开发，适合希望深入了解LangChain框架的学习者 2 。
构筑大语言模型应用：介绍LLM在真实世界应用的基础知识和应用，以及如何构建自己的模型，适合希望了解LLM应用开发模式和架构设计的人员 2 。
mlabonne/llm-course：整合了大量LLM教材和资料，绘制学习路线图，适合初学者和有经验的数据科学家 3 。
llm-action：提供了从6B到65B模型训练的实战教程，涵盖全量微调到高效微调技术，适合希望深入了解LLM训练技术的学习者 6 6 。

总结来说，“rasbt/LLMs-from-scratch”项目的独特之处在于其从零开始构建和训练LLM的实践方法，以及对LLM内部工作原理的深入讲解。与其他项目相比，它更侧重于实践和系统的理论学习，适合那些有志于深入理解并亲手实践LLM的开发者和研究者。

项目规划

Chapter Title 章节标题	Main Code (for quick access) 主代码（快速访问）	All Code + Supplementary 全部代码+补充
Ch 1: Understanding Large Language Models 第1章：理解大型语言模型	No code	No code
Ch 2: Working with Text Data 第2章：使用文本数据	- ch02.ipynb - dataloader.ipynb (summary) - dataloader.ipynb（摘要） - exercise-solutions.ipynb	./ch02 ./第02章
Ch 3: Coding Attention Mechanisms 第3章：编码注意力机制	- ch03.ipynb - multihead-attention.ipynb (summary) - multihead-attention.ipynb（摘要） - exercise-solutions.ipynb	./ch03 ./第03章
Ch 4: Implementing a GPT Model from Scratch 第4章：从头开始实施GPT模型	- ch04.ipynb - gpt.py (summary) - gpt.py（摘要） - exercise-solutions.ipynb	./ch04 ./第04章
Ch 5: Pretraining on Unlabeled Data 第5章：对未标记数据进行预训练	Q1 2024 2024年第一季度	...
Ch 6: Finetuning for Text Classification 第6章：文本分类的微调	Q2 2024 2024年第二季度	...
Ch 7: Finetuning with Human Feedback 第7章：利用人类反馈进行微调	Q2 2024 2024年第二季度	...
Ch 8: Using Large Language Models in Practice 第8章：在实践中使用大型语言模型	Q2/3 2024 2024年第2/3季度	...
Appendix A: Introduction to PyTorch 附录A：PyTorch简介	- code-part1.ipynb - code-part2.ipynb - DDP-script.py - exercise-solutions.ipynb	./appendix-A ./附录a

项目负责人

https://github.com/Ethan-Chen-plus wxid:wxid_f4av9mkmyzw822

备注：发起立项申请后DOPMC成员将会在7天内给出审核意见，若7天内无反对意见则默认立项通过~

[X] 我已知悉上述备注

Ethan-Chen-plus commented 9 months ago

分工：

章节	负责人
chp02	王训志汪健麟
chp03	张友东邹雨衡
chp04	陈嘉诺高立业
Appendix	周景林陈可为

Sm1les commented 8 months ago

7天内无反对意见则默认立项通过

datawhalechina / DOPMC

llms-from-scratch-cn #210

你是否已经阅读并同意《Datawhale开源项目指南》？

你是否已经阅读并同意《Datawhale开源项目行为准则》？

项目简介

立项理由

项目受众

项目亮点

项目亮点

类似项目比较

项目规划

项目负责人

备注：发起立项申请后DOPMC成员将会在7天内给出审核意见，若7天内无反对意见则默认立项通过~