jasperzhong / read-papers-and-code

My paper/code reading notes in Chinese
45 stars 3 forks source link

EMNLP '17 | Sparse communication for distributed gradient descent #69

Closed jasperzhong closed 4 years ago

jasperzhong commented 4 years ago

https://arxiv.org/pdf/1704.05021.pdf

用topk跑一个nmt就能中emnlp?用topk跑一个finetune bert是不是能中今年acl?

jasperzhong commented 4 years ago

文章用的是async sgd + ps,只压缩push. drop 90%/99%/99.9%的梯度,跑了MNIST和NMT.

看上去效果还不错

image

里面提到了layer normalization #71 很重要,如下图 image 这里的local和global我看了半天才理解作者奇葩的脑回路

算法是要丢掉R%的绝对值最小的项;正确的做法应该是计算k = R% * len,然后取topk。但作者的脑回路是先计算一个threshold,然后取绝对值大于这个threshold的项;而threshold怎么得到呢?采样,1)local:每个梯度矩阵都采样0.1% 2)global:所有梯度采样0.1%。。。。

一件简单的事情搞的这么复杂。。。


里面提到了async sgd如果用了ef的话,server需要对每一个client都维护一个error.

byteps想实现这个感jio有点麻烦...和目前设计和实现不太兼容.