Closed msrks closed 1 year ago
ICML2017 DeepMind。
多層ニューラルにおいて、浅い層の学習は、深層からのbackpropを待つ必要がある。
この論文では、各層でbackpropされるerrorの値を予測する Synthetic Gradient generator
を使うことで、ニューラルネットの学習を層ごとに分離できる(独立・非同期に学習できる)。
これによって、分散環境で高速に学習することができる。また、下図のように Synthetic Gradient generator
を使えば、メモリ制約によらず、高速に、長期依存まで拾ったRNNを学習できる。
追記:
Synthetic Gradient generator
も ニューラルネットkで定義する。前の層からの入力を受け取って、後の層からのerror backprop を予測するニューラルネット。
Decoupled Neural Interfaces using Synthetic Gradients