MLSys '20 | SLIDE : Training Deep Neural Networks with Large Outputs on a CPU faster than a V100-GPU

jasperzhong / read-papers-and-code

My paper/code reading notes in Chinese

43 stars 3 forks source link

Open jasperzhong opened 4 years ago

jasperzhong commented 4 years ago

感觉是标题党（逃

jasperzhong commented 4 years ago

文章的background不太熟....看的比较痛苦... 文章似乎是以这篇为基础的. https://arxiv.org/pdf/1602.08194.pdf

看上去是利用了adaptive sparsity来做并行(有点像HOGWILD)，还利用了LSH. 原理没看懂.

暂且跳过. 等background熟悉了再回头看.