Closed jasperzhong closed 3 years ago
确实,有一个benchmark能加速内卷!
做ML benchmark主要就是需要考虑
时间的测量,需要除去 1) 系统加载时间 2)模型编译时间 3) 数据预处理时间. 但包括data argumentation时间.
另外由于软件平台不同, 需要标明是啥框架. 还需要标明使用的硬件(CPU, GPU, network)
现在的benchmark suite. 不知道这里说的BERT是base还是large.
这个图很有意思. 说明有了这个benchmark后,确实促进了mlsys的发展.
发现现在v0.7上的结果, PyTorch最多. 然后MXNet很多啊, 尤其是视觉任务上(估计都是去用GluonCV, 逃. 跑BERT的全是PyTorch(啊这.
8个DGX-1-V100 71min训练imagenet这个结果还可以接受. 加上mixed precision是有这么快. 但是能167min训练BERT这让我惊了. 啊这. 看了眼network是10GB/s的. 这还是太快了. 估计是用了64k的batch size.
https://arxiv.org/pdf/1910.01500.pdf