Open usersan opened 4 years ago
Mohammad Rastegari, Vicente Ordonez, Joseph Redmon, Ali Farhadi
https://arxiv.org/abs/1603.05279
Qiita https://qiita.com/ikeyasu/items/e902360c465e89bdb1b9
パラメータとアクティベーションをバイナリ化
ImageNet 1000クラス分類でも高精度
スケーリング係数の導入 バイナリ化による量子化誤差を緩和して実数の重みに近づける
I∗W≈(I⨁B)α
I: アクティベーション W: パラメータ B: バイナリ化されたパラメータ α: スケーリング係数 ∗: 畳み込み ⨁: 掛け算なしの畳み込み
最適なαはWのL1ノルム(絶対値とって足し合わせる)をnで割ることで簡単に計算できる
学習はBinary Connectとだいたい同じ (I⨁B)α でフォワードを計算 Wは実数で更新
アクティベーションもバイナリ化する場合は以下: I∗W≈(sign(I)⨁sign(W))・Kα
⨁: XNORとbitcountによる畳み込み ・: 要素ごとの掛け算
ImageNet
0. 論文
Mohammad Rastegari, Vicente Ordonez, Joseph Redmon, Ali Farhadi
https://arxiv.org/abs/1603.05279
Qiita https://qiita.com/ikeyasu/items/e902360c465e89bdb1b9
1. どんなもの?
パラメータとアクティベーションをバイナリ化
2. 先行研究と比べてどこがすごい?
ImageNet 1000クラス分類でも高精度
3. 技術や手法のキモはどこ?
スケーリング係数の導入 バイナリ化による量子化誤差を緩和して実数の重みに近づける
I∗W≈(I⨁B)α
I: アクティベーション W: パラメータ B: バイナリ化されたパラメータ α: スケーリング係数 ∗: 畳み込み ⨁: 掛け算なしの畳み込み
最適なαはWのL1ノルム(絶対値とって足し合わせる)をnで割ることで簡単に計算できる
学習はBinary Connectとだいたい同じ (I⨁B)α でフォワードを計算 Wは実数で更新
アクティベーションもバイナリ化する場合は以下: I∗W≈(sign(I)⨁sign(W))・Kα
⨁: XNORとbitcountによる畳み込み ・: 要素ごとの掛け算
4. どうやって有効だと検証した?
ImageNet
5. 議論はある?
6. 次に読むべき論文は?