Closed jasperzhong closed 4 years ago
文章用的是async sgd + ps,只压缩push. drop 90%/99%/99.9%的梯度,跑了MNIST和NMT.
看上去效果还不错
里面提到了layer normalization #71 很重要,如下图 这里的local和global我看了半天才理解作者奇葩的脑回路
算法是要丢掉R%的绝对值最小的项;正确的做法应该是计算k = R% * len,然后取topk。但作者的脑回路是先计算一个threshold,然后取绝对值大于这个threshold的项;而threshold怎么得到呢?采样,1)local:每个梯度矩阵都采样0.1% 2)global:所有梯度采样0.1%。。。。
一件简单的事情搞的这么复杂。。。
里面提到了async sgd如果用了ef的话,server需要对每一个client都维护一个error.
byteps想实现这个感jio有点麻烦...和目前设计和实现不太兼容.
https://arxiv.org/pdf/1704.05021.pdf
用topk跑一个nmt就能中emnlp?
用topk跑一个finetune bert是不是能中今年acl?