Open IsHYuhi opened 2 years ago
Niv Haim∗, Gal Vardi∗, Gilad Yehudai∗, Ohad Shamir, Michal Irani
Weizmann Institute of Science
2022
arXiv Project Page
学習済みNN分類器のパラメータから学習データを再構成できることを示した.勾配に基づく手法で,NNの訓練のバイアスに関する理論的結果に由来する再構成スキームを提案.既存研究と異なり,学習データを仮定する必要がない.
BCEでニューラルネットワークを訓練した場合,そのパラメータがあるマージン最大化問題の定常点に収束することが立証されている. その結果は学習されたネットワークのパラメータが,学習データセットに対して1組の方程式を満たすことを示す.
この研究ではそれらに基づき,学習済みパラメータと等式を解くデータセットを求めることで学習データを再構成する.
この研究は勾配流(i.e. gradient descent with an infinitesimally small step size)に対して成立する定理(Lyu and Li, 2019)に基づいている.
まず定理を述べる前に以下の定義を行う.
(1) $lim_{t \rightarrow \infty}\frac{\boldsymbol{θ}(t)}{||\boldsymbol{θ}||}=\frac{\tilde{\boldsymbol{θ}}}{||\tilde{\boldsymbol{θ}||}}$ の時,勾配流は方向 $\tilde{\boldsymbol{\theta}}$ に収束するという.
(2) すべての $α>0$ と $\boldsymbol{θ}, \boldsymbol{x}$ に対して, $Φ(α\boldsymbol{θ}; \boldsymbol{x} = α^{L}Φ(\boldsymbol{θ}; \boldsymbol{x})$ を持つような $L>0$ が存在するときhomogeneousなネットワークと呼ぶ. (要はパラメータθを任意の係数 $α>0$ でスケーリングを行うと出力が $α^L$ でスケーリングされるということ.)
ReLUを持つFCまたはCNNはskip-connectionまたはbias項を持たない場合,本質的にパラメータ $\boldsymbol{θ}$ に対してhomogeneousである.
$Φ(\boldsymbol{θ}; \cdot)$ をhomogeneousなネットワークとし,勾配流を用いて2値分類においてlogistic lossを最小化する.
$L(\boldsymbol{θ}(t{0}))<1$ となるような時間 $t{0}$ が存在すると仮定. (つまり全てのiに対して $l(y{i} \Phi(\boldsymbol{\theta}; \boldsymbol{x}{i}) < 1$, すなわちある時刻に $\Phi$ が全てのサンプルを正しく分類できている *).
さらに $t \rightarrow \infty$ として $L(\boldsymbol{θ}(t_{0})) \rightarrow 0$ となる(lossが限りなく0に近づく). その時,勾配流はKTT point方向に収束する:
* (My comment)元論文は $l(q)=e^{-q}$ , この研究では$l(q)=log(1 + e^{-q})$ なことに注意.
この定理は最適化問題(1)の一次定常点への方向性収束を保証しており(Karush-Kuhn-Tucker point (KTT point)と呼ばれる),不等式制約を許している.(等式制約のみを許容するラグランジュの未定乗数法の一般化)
これはhomogeneousなネットワークに対する,暗黙的な勾配流の偏りを特徴づけている.データセットを正しく分類する方向 $\frac{\boldsymbol{\theta}}{||\boldsymbol{\theta}||}$ が無数に存在するのにも関わらず,勾配流はKTT pointである方向にのみ収束する.特に定理3.1の下で勾配流の軌跡 $\boldsymbol{\theta}(t)$ がKTT point $\tilde{\boldsymbol{\theta}}$ に方向が収束するなら以下の(2)~(5)がなりたつような, $\lambda{1}, ..., \lambda{n}$ が存在する.
この研究は主に式(2)に基づいており,これはパラメータ $\tilde{\boldsymbol{\theta}}$ が学習データ点におけるネットワークの導関数の線型結合であることを意味している.
またここで,ネットワークの出力がラベルと一致している時(-1か1), データxiはマージン上にあるという. また(5)はマージン上にないサンプルに対して係数 λiを持つので,マージン上のサンプルのみが式(2)に影響を与える.
定理3.1は $t \rightarrow \infty$ の時有限回の学習でも,ネットワークのパラメータは式(2),係数λiは式(4)を近似的に見たす可能性を示唆している.nは未知でマージンのサンプル数も未知のため,再構成したいサンプルをm>=2nとし,それぞれのラベルを1, -1とする. 損失を以下のように定義:
データセットを再構成するためにSGDを使って,xとλを求め,損失関数を最小化する.
式(5)によって,マージン上に存在しないすべてのxiについて λi = 0となるので,式(2)は, $\tilde{\boldsymbol{\theta}}$ はマージン上にあるデータ点に対する勾配のみによって決定されることを意味する. したがって, マージン上にある学習サンプルの再構成のみが期待できる.
(c) m = 100個の点をランダムに初期化し, 各クラスに 50 個の点を割り当てる. (d) 提案の手法は,一部のノイズを除いてすべての入力サンプルを再構成している. (e) さらに再構成結果を改善するために,学習サンプルに収束しなかった余分な点のいくつかを削除.(対応するλi < 5の点xiを削除. ) 式(2)からλi = 0の点はパラメータに影響しないので,対応するxiは任意の値をとることができる.実際には,対応するλiが十分に小さい点を削除する. (f) 最後に,重複を除去するために,他の点と非常に近い点をgreedilyに除去. (点をランダムに並べ, 他の点から距離<0.03の点を繰り返し削除.)
SSIMとモデルの出力値のプロットを各データセットのサイズ,モデル構造で比較.
* 全てのhidden-layerにバイアス項を付与
比較手法のModel Inversionだと高次元なMNISTやCIFARのデータにおいてノイズが多くぼやけた代表的なクラスに収束してしまう.20サンプルで学習した場合,Model Inversionでは7の個のサンプルのみ再構成できなかったが,提案手法では20個の学習サンプルが全て再構成できている.
Sep. 9th, 2022
INFO
author
Niv Haim∗, Gal Vardi∗, Gilad Yehudai∗, Ohad Shamir, Michal Irani
affiliation
Weizmann Institute of Science
conference or year
2022
link
arXiv Project Page
概要
学習済みNN分類器のパラメータから学習データを再構成できることを示した.勾配に基づく手法で,NNの訓練のバイアスに関する理論的結果に由来する再構成スキームを提案.既存研究と異なり,学習データを仮定する必要がない.
提案手法
BCEでニューラルネットワークを訓練した場合,そのパラメータがあるマージン最大化問題の定常点に収束することが立証されている. その結果は学習されたネットワークのパラメータが,学習データセットに対して1組の方程式を満たすことを示す.
この研究ではそれらに基づき,学習済みパラメータと等式を解くデータセットを求めることで学習データを再構成する.
前提
Implicit Bias of Neural Networks
この研究は勾配流(i.e. gradient descent with an infinitesimally small step size)に対して成立する定理(Lyu and Li, 2019)に基づいている.
まず定理を述べる前に以下の定義を行う.
(1) $lim_{t \rightarrow \infty}\frac{\boldsymbol{θ}(t)}{||\boldsymbol{θ}||}=\frac{\tilde{\boldsymbol{θ}}}{||\tilde{\boldsymbol{θ}||}}$ の時,勾配流は方向 $\tilde{\boldsymbol{\theta}}$ に収束するという.
(2) すべての $α>0$ と $\boldsymbol{θ}, \boldsymbol{x}$ に対して, $Φ(α\boldsymbol{θ}; \boldsymbol{x} = α^{L}Φ(\boldsymbol{θ}; \boldsymbol{x})$ を持つような $L>0$ が存在するときhomogeneousなネットワークと呼ぶ. (要はパラメータθを任意の係数 $α>0$ でスケーリングを行うと出力が $α^L$ でスケーリングされるということ.)
ReLUを持つFCまたはCNNはskip-connectionまたはbias項を持たない場合,本質的にパラメータ $\boldsymbol{θ}$ に対してhomogeneousである.
定理3.1 (Lyu and Li, 2019)
$Φ(\boldsymbol{θ}; \cdot)$ をhomogeneousなネットワークとし,勾配流を用いて2値分類においてlogistic lossを最小化する.
$L(\boldsymbol{θ}(t{0}))<1$ となるような時間 $t{0}$ が存在すると仮定. (つまり全てのiに対して $l(y{i} \Phi(\boldsymbol{\theta}; \boldsymbol{x}{i}) < 1$, すなわちある時刻に $\Phi$ が全てのサンプルを正しく分類できている *).
さらに $t \rightarrow \infty$ として $L(\boldsymbol{θ}(t_{0})) \rightarrow 0$ となる(lossが限りなく0に近づく). その時,勾配流はKTT point方向に収束する:
* (My comment)元論文は $l(q)=e^{-q}$ , この研究では$l(q)=log(1 + e^{-q})$ なことに注意.
この定理は最適化問題(1)の一次定常点への方向性収束を保証しており(Karush-Kuhn-Tucker point (KTT point)と呼ばれる),不等式制約を許している.(等式制約のみを許容するラグランジュの未定乗数法の一般化)
これはhomogeneousなネットワークに対する,暗黙的な勾配流の偏りを特徴づけている.データセットを正しく分類する方向 $\frac{\boldsymbol{\theta}}{||\boldsymbol{\theta}||}$ が無数に存在するのにも関わらず,勾配流はKTT pointである方向にのみ収束する.特に定理3.1の下で勾配流の軌跡 $\boldsymbol{\theta}(t)$ がKTT point $\tilde{\boldsymbol{\theta}}$ に方向が収束するなら以下の(2)~(5)がなりたつような, $\lambda{1}, ..., \lambda{n}$ が存在する.
この研究は主に式(2)に基づいており,これはパラメータ $\tilde{\boldsymbol{\theta}}$ が学習データ点におけるネットワークの導関数の線型結合であることを意味している.
またここで,ネットワークの出力がラベルと一致している時(-1か1), データxiはマージン上にあるという. また(5)はマージン上にないサンプルに対して係数 λiを持つので,マージン上のサンプルのみが式(2)に影響を与える.
Dataset Reconstruction
定理3.1は $t \rightarrow \infty$ の時有限回の学習でも,ネットワークのパラメータは式(2),係数λiは式(4)を近似的に見たす可能性を示唆している.nは未知でマージンのサンプル数も未知のため,再構成したいサンプルをm>=2nとし,それぞれのラベルを1, -1とする. 損失を以下のように定義:
データセットを再構成するためにSGDを使って,xとλを求め,損失関数を最小化する.
式(5)によって,マージン上に存在しないすべてのxiについて λi = 0となるので,式(2)は, $\tilde{\boldsymbol{\theta}}$ はマージン上にあるデータ点に対する勾配のみによって決定されることを意味する. したがって, マージン上にある学習サンプルの再構成のみが期待できる.
検証
2次元データの例
(c) m = 100個の点をランダムに初期化し, 各クラスに 50 個の点を割り当てる. (d) 提案の手法は,一部のノイズを除いてすべての入力サンプルを再構成している. (e) さらに再構成結果を改善するために,学習サンプルに収束しなかった余分な点のいくつかを削除.(対応するλi < 5の点xiを削除. ) 式(2)からλi = 0の点はパラメータに影響しないので,対応するxiは任意の値をとることができる.実際には,対応するλiが十分に小さい点を削除する. (f) 最後に,重複を除去するために,他の点と非常に近い点をgreedilyに除去. (点をランダムに並べ, 他の点から距離<0.03の点を繰り返し削除.)
CIFAR10 & MNIST
Practice vs. Theory
SSIMとモデルの出力値のプロットを各データセットのサイズ,モデル構造で比較.
* 全てのhidden-layerにバイアス項を付与
新規性
比較手法のModel Inversionだと高次元なMNISTやCIFARのデータにおいてノイズが多くぼやけた代表的なクラスに収束してしまう.20サンプルで学習した場合,Model Inversionでは7の個のサンプルのみ再構成できなかったが,提案手法では20個の学習サンプルが全て再構成できている.
議論,展望
Comment
date
Sep. 9th, 2022