The Forward-Forward Algorithm: Some Preliminary Investigations

論文情報

タイトル	The Forward-Forward Algorithm: Some Preliminary Investigations
発表年	2022/12/27
URL	https://arxiv.org/abs/2212.13345
プログラム	https://github.com/mohammadpz/pytorch_forward_forward

一言説明

誤差逆伝播を用いないニューラルネットワークの新しい学習方法であるForward-Forward Algorithmを提唱
小規模なニューラルネット(パラメータ数数百万)程度なら十分に学習ができることを示した
MNISTやCIFAR10で一部モデルにおいて誤差逆伝播法と同様に学習が進行
省メモリ、省電力にメリットあり

モチベーション

誤差逆伝播法は、計算量が多い(順伝播逆伝播で2回全ての経路を辿る、逆伝搬で順伝搬の計算過程を保持する必要があるためメモリの消費量が激しい)
生物の脳、とりわけ神経ネットワークを考えた時に逆伝播を用いていない(そもそも物理的に伝播は不可能)
上記の問題を解決するために、新たにNegative Data、goodnessの概念を導入し、順伝播のみで完結するForward-Forward Algorithmを開発

手法

BP_vs_FF

学習データについて正解データ(positive)と不正解データ(negative)を作成する。(２種類のforwardでそれぞれ用いる)
データを任意のNNで順伝播させる。
各層の出力の二乗をGoodnessと定義する
正解データのGoodnessが閾値よりも大きく、不正解データのGoodnessが閾値よりも小さくなるように重みを各層ごとに更新する

→つまり入力に対して正解と不正解を見分けられるように学習を進める
　データが2種類あるため、forward-forwardという名前がついており、正解データは正解データだけのバッチ、　不正解データは不正解データだけでバッチが構成される

layer

教師あり学習の場合のデータ作成方法

学習データについて正解データ(positive)と不正解データ(negative)を作成し、最初のラベル個数分のpixelに正解ラベルを重ねる(overlay)

・Positive sample：画像と正解ラベル・Negative sample：画像とランダムに付与したラベル

pos_neg

推論方法

推論用の推論用のデータをラベル個数分用意して、それぞれに異なるラベルを付与する・ラベルが3種類の場合はラベル1,2,3が載った推論データがあるということ
モデルにそれぞれのデータを入力し、各層においてそれぞれのGoodnessを計算して、最もGoodnessが大きかったラベルを正解ラベルとする・学習では、正解データのGoodnessを高く、不正解を低く学習するようにしているので妥当な推論方法と言える

実データでの実験

MNISTを使った実験では、NNを4FC(全結合層)・2000ReLUとしたときでテスト誤差1.4%を達成 →BPを利用した場合と同程度の精度がでることが示している 　またDropout:やLabel Smoothingを適切に利用することでテスト誤差は1.1%まで低減可能

検証データ： MNIST：train 5万、val 1万、 test1万

手法	テスト誤差
CNN	0.6%
4FC・2000ReLU 20epoch	1.4%
4FC・2000ReLU + 正則化	1.1%

FFを使う上での２つの疑問点

適切な正負のデータがあればデータの構造を捉えた効果的な多層表現を学習するのか？
適切な負のデータをどうやって取得するのか？

→2つの数字をマスクで合成し、負例データとして利用している 生成方法の意図：文字の形状を学習するために正例に対して近距離相関が高く、遠距離相関が低いデータを作成生成方法：ランダムな画像に対して繰り返しブラー処理をかけて最終的に閾値0.5で二値化画像を作成

2000ReLUの４つの隠れ層を持つNNを100epoch学習させて、最後の3層の隠れ層にgoodnessをソフトマックスの入力として利用するとエラー率は1.37%となる。

	テスト誤差	Epoch
baseline	1.4%	20
4FC・2000ReLU Softmax	1.37%	100
局所受容野	1.16%	60

CIFAR-10での実験

CIFAR-10：32✕32✕3色チャンネル(3072次元)の10クラス分類用のデータセット

BPに精度では劣るがFFでも学習を行うことができることを示した

FFでのsequenceの学習

検証データ：イソップ童話：100文字✕248文文字種30種：小文字26文字+スペース、コンマ、セミコロン、ピリオドの30クラス分類

学習最初10文字を文脈(学習データ)として与え、残り90文字を生成・予測する正例：正解データ10文字負例：10文字目がモデルの予測値 or 11文字目以降のすべての予測値

FFでシーケンスに関しても学習可能であることが示された

グラフの比較条件青：隠れ層の重みをランダムに固定し、softmaxだけを学習赤：正例/負例を交互に学習黒：正例/負例を同時に学習

ランダムより精度は向上
正例/負例は同時に考慮しなくてもOK →オフライン学習・睡眠学習が可能

まとめ

実際の生物の脳神経の働きをモデル化することを目指して、BPに代わるアルゴリズムとしてForward-Forward Algorithmを提案
MNISTやCIFAR-10などのデータセットでBPに劣るも、学習ができることを示す
逆伝播をしなくて良い分、メモリの消費量が少なく済み省エネに寄与

読んだ所感

他の手法と組み合わせることで精度面での向上は見込めそうなので今後に期待！
GNN(グラフニューラルネットワーク)での利用例　https://arxiv.org/pdf/2302.05282.pdf

参考URL

https://qiita.com/sergicalsix/items/a7720c403028823f7b19 https://www.slideshare.net/DeepLearningJP2016/dlthe-forwardforward-algorithm-some-preliminary https://keras.io/examples/vision/forwardforward/

サンプルコード https://github.com/aaaa383/-/blob/main/forward_forward_Algorithm.ipynb

aifield / CV_News

#13 The Forward-Forward Algorithm: Some Preliminary Investigations #13