Closed lynex closed 2 years ago
Some format consistency issue: https://github.com/microsoft/AI-System/tree/main/Textbook
有的图没有公式且文字无解释,算法工程师无法映射算法到部署 (图6-3-1: 数据并行示意图) 有的图有公式,但是来源不同,不同图之间符号无解释,容易混淆 (图6-3-5: Transformer中切分张量的模型并行 (图片来源:Megatron-LM)))
一种彻底解决方法:
使用同一个计算图演化出不同的图,解释不同算法和部署管理。(例如用 图6-3-3: 通过All-Reduce实现数据并行的流图)
目前需要补充一些内容
1 各个子小节引入的原因。例如,为什么会需要数据并行。 2 通信拓扑对算法是否有影响? 3 并列方案的对比,使用假设,应用场景 4 一些历史,例如为何分布式机器学习的PS目前没有用,而用的AllReduce
目前引入的图片比例较高且引用图片中欠缺其中元素英文解释(未汉化),造成理解图中上下文比较难,例如同步异步算法章节,通信协调章节。
Thanks for the reminder! I should have made it clear: This PR focus on chapter structure change, leaving more TODO changes included in upcoming PRs.
OK Let's merge it
please update the main outline due to sub chapter title updated