so-large-lm - Githubissues

andongBlue commented 1 year ago

你是否已经阅读并同意《Datawhale开源项目指南》？

[X] 我已阅读并同意《Datawhale开源项目指南》

你是否已经阅读并同意《Datawhale开源项目行为准则》？

[X] 我已阅读并同意《Datawhale开源项目行为准则》

项目简介

本项目旨在作为一个大规模预训练语言模型的教程，从数据准备、模型构建、训练策略到模型评估与改进，以及模型在安全、隐私、环境和法律道德方面的方面来提供开源知识。

项目将以斯坦福大学大规模语言模型课程为基础，结合来自开源贡献者的补充和完善，以及对前沿大模型知识的及时更新，为读者提供较为全面而深入的理论知识和实践方法。通过对模型构建、训练、评估与改进等方面的系统性讲解，我们希望建立一个具有广泛参考价值的项目。

我们的项目团队成员将分工负责各个章节的内容梳理和撰写，并预计在三个月内完成初始版本内容。随后，我们将持续根据社区贡献和反馈进行内容的更新和优化，以确保项目的持续发展和知识的时效性。我们期待通过这个项目，为大型语言模型研究领域贡献一份宝贵的资源，推动相关技术的快速发展和广泛应用。

立项理由

自然语言处理（NLP）领域以及其他人工智能领域已经被大规模预训练模型深刻改变。这些模型构成了许多任务中最先进系统的基础，并在各行各业迅速展现出强大的实力。

大模型在社会层面已经成为了一个热门话题，大众对此产生了浓厚兴趣。然而，目前关于这一领域的文章质量参差不齐。本教程旨在提供一套易于理解且理论丰富的大模型教程，让广大人群能够了解和学习。

从业界角度来看，未来自然语言处理领域的初学者可能会接触到以大模型为核心的各种知识，而现有的自然语言处理教程尚缺乏大模型相关的学习资料。因此，我们从全面的角度为大家提供大模型的学习内容。

此外，本教程借鉴了斯坦福大学的CS234课程（[https://stanford-cs324.github.io/winter2022/）旨在将优质且前沿的学术内容引入国内，为学习者提供更多资源。

项目受众

人工智能、自然语言处理和机器学习领域的研究者和从业者：该项目旨在为研究者和从业者提供大规模预训练语言模型的知识和技术，帮助他们更深入地了解当前领域的最新动态和研究进展。
学术界和产业界对大型语言模型感兴趣的人士：项目内容涵盖了大型语言模型的各个方面，从数据准备、模型构建到训练和评估，以及安全、隐私和环境影响等方面。这有助于拓宽受众在这一领域的知识面，并加深对大型语言模型的理解。
想要参与大规模语言模型开源项目的人士：本项目提供代码贡献和理论知识，降低受众在大规模预训练学习的门槛。
其余大型语言模型相关行业人员：项目内容还涉及大型语言模型的法律和道德考虑，如版权法、合理使用、公平性等方面的分享，这有助于相关行业从业者更好地了解大型语言模型的相关问题。

项目亮点

项目的及时性：当前大模型发展迅速，社会和学习者缺少较为全面和系统的大模型教程
项目可持续性：当前大模型发展还在初期阶段，对行业的渗透还未全面展开，因此随着大模型的发展，该项目可持续的为学习者提供帮助

项目规划

目录（如有多级至少精确到二级）

项目简介
- 项目目标：目前对大规模预训练语言模型的相关知识的重点讲解
- 项目背景：GPT-3等大型语言模型的出现，以及相关领域研究的发展
数据准备
- 数据收集：从公开数据集中获取训练和评估所需数据，如The Pile数据集
- 数据预处理：数据清洗、分词、去除敏感信息等
模型构建
- 模型结构：研究和实现RNN, Transformer等网络结构
- 建模方法：使用ELECTRA等预训练方法，结合目标函数、稳定性和调试技术进行训练
模型训练
- 数据并行：研究实现数据并行方法，以提高训练速度
- 模型并行：研究实现模型并行方法，以扩展模型规模
- 流水线并行：研究实现流水线并行方法，以进一步提高训练效率
- 序列并行：研究实现序列并行方法，以提高模型扩展能力
模型评估与改进
- 评估方法：使用困惑度、提示等指标进行模型性能评估
- 异常检测：通过对比预测结果和真实标签，识别模型中的性能差异、偏见和刻板印象等问题
- 改进策略：针对检测到的问题，提出相应的改进策略，如使用Probing、Fine-tuning等方法进行模型调整
安全与隐私
- 数据安全：研究数据投毒攻击和防御策略
- 隐私保护：研究差分隐私在大型语言模型中的应用
环境影响
- 训练与推理成本：评估模型训练和推理所需的计算资源
- 碳排放：评估大型语言模型对环境的潜在影响，并提出相应的优化策略
法律与道德考虑
- 版权法与合理使用：研究版权法对大型语言模型的影响，并确保合规使用
- 公平性：关注模型中的不公平现象，并采取措施减小不公平性
文档与资源（相当于整体内容的Reference部分）
- 项目文档：撰写详细的项目文档，包括安装、使用和开发指南
- 社区贡献与支持：鼓励社区成员参与项目，提供代码贡献、问题反馈和建议

各章节负责人 陈安东：第二章、第三章张帆：第五章后边章节暂定

各章节预估完成日期 整体教程开源内容发布分为三个步骤：Step 1: 基于斯坦福大规模语言模型课程（https://stanford-cs324.github.io/winter2022/）的内容作为底座搭建出初始版本内容[预计三个月内完成]；Step 2: 在上一步的基础上，按照开源贡献者对以上知识进行补充和完善（2023/12月）；Step 3: 当前大模型的知识更新速度快，对前沿的大模型内容进行及时的补充。

项目负责人

陈安东微信: andong---

备注：发起立项申请后DOPMC将会在 72h 之内给出答复，如超时未答复请添加DOPMC负责人微信（微信号：at-Sm1les）问询~

[X] 我已知悉上述备注

ZhikangNiu commented 1 year ago

同意

qiwang067 commented 1 year ago

同意

GYHHAHA commented 1 year ago

同意

finlay-liu commented 1 year ago

优秀，同意

zhanhao93 commented 1 year ago

同意，不过建议说明一下与CS234之间的关系，是对CS234的一个补充？汉化？还是Notes？

andongBlue commented 1 year ago

同意，不过建议说明一下与CS234之间的关系，是对CS234的一个补充？汉化？还是Notes？

学长，我们在“各章节预估完成日期”和“各章节预估完成日期”有了简单的说明。这边在做进一步的补充：我们首先CS234相比借鉴了课程在大模型课程的划分结构；其次我们在章节预估的阶段希望三个月内将该课程内容做汉化与补充（CS234的内容很少，并且有一部分只有slide）；最后在第二和第三步中，在之前的基础上加入更多我们自己的内容。