PaddlePaddle / docs

Documentations for PaddlePaddle
https://www.paddlepaddle.org.cn/documentation/docs/zh/guides/index_cn.html
Apache License 2.0
238 stars 704 forks source link

魔术师+Paddle分布式训练文档体验评估 #4874

Closed whisky-12 closed 9 months ago

whisky-12 commented 2 years ago

任务类型

单机多卡

项目环境

AI Studio

认领任务

【NLP】用N-Gram模型在莎士比亚文集中训练word embedding :https://www.paddlepaddle.org.cn/documentation/docs/zh/practices/nlp/n_gram_model.html

1.导入分布式训练需要的依赖包

2.初始化分布式训练环境

3.设置分布式训练需要的优化器

4.数据集拆分

1.在paddle官网提供的 用N-Gram模型在莎士比亚文集中训练word embedding文档(https://www.paddlepaddle.org.cn/documentation/docs/zh/practices/nlp/n_gram_model.html)中 2.1 数据集下载部分 , 文章中提供数据集下载的超链接所下载的数据集 与 文章实际训练所提供的模板数据集不一致, 超链接 为英文版的数据集 ,而文档中则是中文版(可以aistudio公开数据集中搜索到) 文档超链接提供 : image 文档实际使用: image 2.下图中标注部分 ,文档中是否为描述位置不同,描述在代码中没具体表现,是否需要review者再次确认下? image

5.构建训练代码

6.单机多卡分布式训练

7.多机多卡分布式训练

其他问题或建议

No response

相关代码

分布式--用N-Gram模型在莎士比亚文集中训练word embedding https://aistudio.baidu.com/aistudio/projectdetail/4084174 (请fork最新版本)

认领任务名称

分布式-中文语义匹配 ERNIE 3.0

https://aistudio.baidu.com/aistudio/projectdetail/4100586 (请fork最新版)

1.导入分布式训练需要的依赖包

2.初始化分布式训练环境

3.设置分布式训练需要的优化器

4.数据集拆分

5.构建训练代码

6.单机多卡分布式训练

7.多机多卡分布式训练

其他问题或建议

No response

相关代码

分布式-中文语义匹配 ERNIE 3.0 https://aistudio.baidu.com/aistudio/projectdetail/4100586

whisky-12 commented 2 years ago

关于之前提交issues中对分布式文档有关函数以及接口参数所涉及部分如下,鉴于对新入手本项目的整体体验感受来说 以下部分 关于model的类型,函数所支持的网络结构有哪些,单向? 对于新手来说如何去判断自己的model能否代入使用 以及opt 数据集 部分 接口所提供的参数都有哪些,因为从其他项目中的相关函数中,会发现更多其他的参数,在这里是否支持这些参数呢? 我觉得如果再回头复制代码在官网搜索,是否有些繁琐,如果这里把这些接口代码中直接黏贴一个超链接,就类似于vscode那种,只需要点击类似与下图 ---->fleet.distributed_model<------ 就可以直接跳转至对应API文档 ,是否就更加方便快捷呢,嗯以上只代表个人体验观点,如有纰漏还望各位review 图片 图片