INFO

author

Niv Haim^∗, Gal Vardi^∗, Gilad Yehudai^∗, Ohad Shamir, Michal Irani

affiliation

Weizmann Institute of Science

conference or year

2022

link

arXiv Project Page

概要

学習済みNN分類器のパラメータから学習データを再構成できることを示した．勾配に基づく手法で，NNの訓練のバイアスに関する理論的結果に由来する再構成スキームを提案．既存研究と異なり，学習データを仮定する必要がない．

スクリーンショット 2022-09-09 11 37 52

提案手法

BCEでニューラルネットワークを訓練した場合，そのパラメータがあるマージン最大化問題の定常点に収束することが立証されている．その結果は学習されたネットワークのパラメータが，学習データセットに対して1組の方程式を満たすことを示す．

この研究ではそれらに基づき，学習済みパラメータと等式を解くデータセットを求めることで学習データを再構成する．

前提

Implicit Bias of Neural Networks

今回は2値分類としてデータセットを分割．labelが{-1, 1}なのでlogistic lossは $l(q)=log(1 + e^{-q})$ となる．(定理の元論文では $l(q)=e^{-q}$ となっていた)
$q = y{i} Φ(\boldsymbol{θ};\boldsymbol{x}{i})$ で, $L(\boldsymbol{θ})$ はそれのsummation.

この研究は勾配流(i.e. gradient descent with an infinitesimally small step size)に対して成立する定理(Lyu and Li, 2019)に基づいている．

まず定理を述べる前に以下の定義を行う．

(1) $lim_{t \rightarrow \infty}\frac{\boldsymbol{θ}(t)}{||\boldsymbol{θ}||}=\frac{\tilde{\boldsymbol{θ}}}{||\tilde{\boldsymbol{θ}||}}$ の時，勾配流は方向 $\tilde{\boldsymbol{\theta}}$ に収束するという．

(2) すべての $α＞0$ と $\boldsymbol{θ}, \boldsymbol{x}$ に対して, $Φ(α\boldsymbol{θ}; \boldsymbol{x} = α^{L}Φ(\boldsymbol{θ}; \boldsymbol{x})$ を持つような $L＞0$ が存在するときhomogeneousなネットワークと呼ぶ. (要はパラメータθを任意の係数 $α＞0$ でスケーリングを行うと出力が $α^L$ でスケーリングされるということ．)

ReLUを持つFCまたはCNNはskip-connectionまたはbias項を持たない場合，本質的にパラメータ $\boldsymbol{θ}$ に対してhomogeneousである．

定理3.1 (Lyu and Li, 2019)

$Φ(\boldsymbol{θ}; \cdot)$ をhomogeneousなネットワークとし，勾配流を用いて２値分類においてlogistic lossを最小化する.

$L(\boldsymbol{θ}(t{0}))<1$ となるような時間 $t{0}$ が存在すると仮定. (つまり全てのiに対して $l(y{i} \Phi(\boldsymbol{\theta}; \boldsymbol{x}{i}) < 1$, すなわちある時刻に $\Phi$ が全てのサンプルを正しく分類できている *).

さらに $t \rightarrow \infty$ として $L(\boldsymbol{θ}(t_{0})) \rightarrow 0$ となる(lossが限りなく0に近づく). その時，勾配流はKTT point方向に収束する：

スクリーンショット 2022-09-16 12 55 35

* (My comment)元論文は $l(q)=e^{-q}$ , この研究では$l(q)=log(1 + e^{-q})$ なことに注意.

この定理は最適化問題(1)の一次定常点への方向性収束を保証しており(Karush-Kuhn-Tucker point (KTT point)と呼ばれる)，不等式制約を許している．(等式制約のみを許容するラグランジュの未定乗数法の一般化)

これはhomogeneousなネットワークに対する，暗黙的な勾配流の偏りを特徴づけている．データセットを正しく分類する方向 $\frac{\boldsymbol{\theta}}{||\boldsymbol{\theta}||}$ が無数に存在するのにも関わらず，勾配流はKTT pointである方向にのみ収束する．特に定理3.1の下で勾配流の軌跡 $\boldsymbol{\theta}(t)$ がKTT point $\tilde{\boldsymbol{\theta}}$ に方向が収束するなら以下の(2)~(5)がなりたつような, $\lambda{1}, ..., \lambda{n}$ が存在する．

スクリーンショット 2022-09-16 13 11 26

この研究は主に式(2)に基づいており，これはパラメータ $\tilde{\boldsymbol{\theta}}$ が学習データ点におけるネットワークの導関数の線型結合であることを意味している.

またここで，ネットワークの出力がラベルと一致している時(-1か1), データx_iはマージン上にあるという. また(5)はマージン上にないサンプルに対して係数 λ_iを持つので，マージン上のサンプルのみが式(2)に影響を与える．

Dataset Reconstruction

定理3.1は $t \rightarrow \infty$ の時有限回の学習でも，ネットワークのパラメータは式(2)，係数λ_iは式(4)を近似的に見たす可能性を示唆している．nは未知でマージンのサンプル数も未知のため，再構成したいサンプルをm>=2nとし，それぞれのラベルを1, -1とする．損失を以下のように定義:

スクリーンショット 2022-09-16 15 11 35

データセットを再構成するためにSGDを使って，xとλを求め，損失関数を最小化する．

式(5)によって，マージン上に存在しないすべてのx_iについて λ_i = 0となるので，式(2)は, $\tilde{\boldsymbol{\theta}}$ はマージン上にあるデータ点に対する勾配のみによって決定されることを意味する. したがって, マージン上にある学習サンプルの再構成のみが期待できる.

検証

2次元データの例

スクリーンショット 2022-09-16 15 11 55

(c) m = 100個の点をランダムに初期化し, 各クラスに 50 個の点を割り当てる. (d) 提案の手法は，一部のノイズを除いてすべての入力サンプルを再構成している． (e) さらに再構成結果を改善するために，学習サンプルに収束しなかった余分な点のいくつかを削除．(対応するλ_i < 5の点x_iを削除. ) 式(2)からλ_i = 0の点はパラメータに影響しないので，対応するx_iは任意の値をとることができる．実際には，対応するλ_iが十分に小さい点を削除する． (f) 最後に，重複を除去するために，他の点と非常に近い点をgreedilyに除去. (点をランダムに並べ, 他の点から距離<0.03の点を繰り返し削除.)

CIFAR10 & MNIST

スクリーンショット 2022-09-16 15 27 06

Practice vs. Theory

スクリーンショット 2022-09-16 15 28 01

SSIMとモデルの出力値のプロットを各データセットのサイズ，モデル構造で比較．

マージン上のサンプルに対して高いSSIM(良好な再構成)が得られている．
学習サイズが大きい場合再構成が難しい．
non-homogeneous * なモデルから高品質な再構成が得られた．これは定理3.1の理論的な限界を超える可能性を示唆している．

* 全てのhidden-layerにバイアス項を付与

新規性

比較手法のModel Inversionだと高次元なMNISTやCIFARのデータにおいてノイズが多くぼやけた代表的なクラスに収束してしまう．20サンプルで学習した場合，Model Inversionでは7の個のサンプルのみ再構成できなかったが，提案手法では20個の学習サンプルが全て再構成できている．

議論，展望

Comment

date

Sep. 9th, 2022

IsHYuhi / PaperSummary

Reconstructing Training Data from Trained Neural Networks #32