MLSys '20 | MLPerf Training Benchmark

确实，有一个benchmark能加速内卷!

做ML benchmark主要就是需要考虑

时间的测量，需要除去 1) 系统加载时间 2）模型编译时间 3) 数据预处理时间. 但包括data argumentation时间.

另外由于软件平台不同, 需要标明是啥框架. 还需要标明使用的硬件(CPU, GPU, network)

现在的benchmark suite. 不知道这里说的BERT是base还是large.

这个图很有意思. 说明有了这个benchmark后，确实促进了mlsys的发展.

发现现在v0.7上的结果， PyTorch最多. 然后MXNet很多啊, 尤其是视觉任务上(估计都是去用GluonCV, 逃. 跑BERT的全是PyTorch（啊这.

8个DGX-1-V100 71min训练imagenet这个结果还可以接受. 加上mixed precision是有这么快. 但是能167min训练BERT这让我惊了. 啊这. 看了眼network是10GB/s的. 这还是太快了. 估计是用了64k的batch size.

jasperzhong / read-papers-and-code