microsoft / AI-System

System for AI Education Resource.
https://microsoft.github.io/AI-System/
Creative Commons Attribution 4.0 International
3.64k stars 451 forks source link

chapter 6 update #199

Closed lynex closed 2 years ago

YanjieGao commented 2 years ago

please update the main outline due to sub chapter title updated

YanjieGao commented 2 years ago

Some format consistency issue: https://github.com/microsoft/AI-System/tree/main/Textbook

  1. 图 6.1.1 中使用.
  2. (En)内英文单词首字母大写
  3. 数字和英文两侧可以加空格更美观
YanjieGao commented 2 years ago

6.3 目前问题 https://github.com/microsoft/AI-System/blob/main/Textbook/%E7%AC%AC6%E7%AB%A0-%E5%88%86%E5%B8%83%E5%BC%8F%E8%AE%AD%E7%BB%83%E7%AE%97%E6%B3%95%E4%B8%8E%E7%B3%BB%E7%BB%9F/6.3-%E5%88%86%E5%B8%83%E5%BC%8F%E8%AE%AD%E7%BB%83%E7%AE%97%E6%B3%95%E5%88%86%E7%B1%BB.md

有的图没有公式且文字无解释,算法工程师无法映射算法到部署 (图6-3-1: 数据并行示意图) 有的图有公式,但是来源不同,不同图之间符号无解释,容易混淆 (图6-3-5: Transformer中切分张量的模型并行 (图片来源:Megatron-LM)))

一种彻底解决方法:

使用同一个计算图演化出不同的图,解释不同算法和部署管理。(例如用 图6-3-3: 通过All-Reduce实现数据并行的流图)

YanjieGao commented 2 years ago

目前需要补充一些内容

1 各个子小节引入的原因。例如,为什么会需要数据并行。 2 通信拓扑对算法是否有影响? 3 并列方案的对比,使用假设,应用场景 4 一些历史,例如为何分布式机器学习的PS目前没有用,而用的AllReduce

YanjieGao commented 2 years ago

目前引入的图片比例较高且引用图片中欠缺其中元素英文解释(未汉化),造成理解图中上下文比较难,例如同步异步算法章节,通信协调章节。

lynex commented 2 years ago

Thanks for the reminder! I should have made it clear: This PR focus on chapter structure change, leaving more TODO changes included in upcoming PRs.

YanjieGao commented 2 years ago

OK Let's merge it