jasperzhong / read-papers-and-code

My paper/code reading notes in Chinese
45 stars 3 forks source link

MLSys '20 | MLPerf Training Benchmark #184

Closed jasperzhong closed 3 years ago

jasperzhong commented 3 years ago

https://arxiv.org/pdf/1910.01500.pdf

jasperzhong commented 3 years ago

确实,有一个benchmark能加速内卷!

做ML benchmark主要就是需要考虑

  1. 精度. 有一个threshold. 这个threshold一般比SOTA要低一些.
  2. 速度. 达到指定精度所需要的时间. 由于run-to-run variance, 需要多跑几次.

时间的测量,需要除去 1) 系统加载时间 2)模型编译时间 3) 数据预处理时间. 但包括data argumentation时间.

另外由于软件平台不同, 需要标明是啥框架. 还需要标明使用的硬件(CPU, GPU, network)

现在的benchmark suite. 不知道这里说的BERT是base还是large. image

这个图很有意思. 说明有了这个benchmark后,确实促进了mlsys的发展. image

发现现在v0.7上的结果, PyTorch最多. 然后MXNet很多啊, 尤其是视觉任务上(估计都是去用GluonCV, 逃. 跑BERT的全是PyTorch(啊这.

8个DGX-1-V100 71min训练imagenet这个结果还可以接受. 加上mixed precision是有这么快. 但是能167min训练BERT这让我惊了. 啊这. 看了眼network是10GB/s的. 这还是太快了. 估计是用了64k的batch size.