2019: Episodic Memory in Lifelong Language Learning

Episodic Memory in Lifelong Language Learning Cyprien de Masson d'Autume, Sebastian Ruder, Lingpeng Kong, Dani Yogatama Proceedings of NeurIPS 2019 https://arxiv.org/abs/1906.01076

概要

様々なデータセットを特別なデータセット識別子なしで1モデルで学習できる手法の提案．sparse experience replayとlocal adaptationを行うepisodic memoryモデルにより，catastrophic forgetting（破滅的忘却）を軽減させる手法を提案．テキスト分類とQAタスクで実験を行い，sparse experience replayとlocal adaptionが補間的に働き，新しいデータセットを１モデルで連続的にモデル化することができた．また，パソーマンス減を最小限にし，メモリに保存されている例をランダムに選ぶことによって，episodic moduleを~50~90%削減させることができた．我々は，episodic memoryは，汎用言語インテリジェンスの重要なブロックと捉え，我々のモデルはその最小の方向性を示した．

イントロ

ライフタイムにおいて知識を連続的に蓄え，それらを再利用できることは汎用インテリジェンスにとって重要な指針である．現在のSOTAなモデルは，１つのデータセットに対してはそれが十分な学習量を伴う場合，高い性能を見せるが，データシフトなどが起こると獲得済みの知識を再利用できなかったりする．この現象はcatastrophic forgettingと呼ばれる．

破滅的忘却に対する主な3つのアプローチとして下記のようなものがあり，最近の手法では組み合わされて利用されたりする．

正則化などと合わせて学習損失を最小化する
学習フェーズを増やす．知識蒸留フェーズ，experience replay等
episodic memoryモジュールでモデルを拡張

言語系のモデルでは，教師なし事前学習によって多くの言語系タスクが攻略されてきた．しかしこれらのモデルは多くのin-domainの学習データを必要とし，すぐに特定データセットにオーバーフィット．結果として破滅的忘却に陥る．

本論では，lifelongセットアップにおける言語のモデル学習においてepisodic memoryが果たす役割を調査する．そのためにsparse experience replayとlocal adaptationを行い，異なるデータ分布からサンプルした事例を連続的にモデルに学習させる．

experience replayにおいて，メモリからランダムに事例を選ぶ．またメモリにおいて既存知識と新しく獲得知識した知識の結合には，非常に疎にexpericne replayを行う．新しい事例学習に対して1%のexperience replayで十分であることを示す．
local adaptationにおいて， Memory-based Parameter Adapation (MbPA; Sprechmann 2018)を利用．特定のテスト事例の予測を行う際に使われるモデルのパラメタを更新するために，メモリーから事例群を抽出する

我々のセットアップは，典型的なlifelong学習のセットアップと異なり，学習セットに対して1回のステップで終わる．更にデータセットは異なるタスクで複数あり，それらのデータセットの識別子を与えて学習するわけではない．

以下貢献ポイント

多くのデータセットに対して，1パスで事例のストリームを学習できるモデルを提案
enc-decモデルを拡張するepisodic memoryを提案．このメモリモジュールは，sparse experience replayとlocal adaptationのために，これまでの既知の事例を保存するkey-valueメモリである

モデル

様々なデータセットがシーケンシャルにやってくる状態で，同じモデルでそれらすべての事例の予測を行うモデル．既存研究と異なり，データセットの識別子のようなものは用意しない．学習のゴールは，下記のような負の対数確率を最小化するWを見つけること．

我々のモデルは，事例のエンコーダー，タスクデコーダー，episodic memoryモジュールの3コンポーネントから構成されている．

事例のエンコーダー

BERT baseを採用．テキスト分類では入力xは分類スべき文書を表し，QAではコンテキスト（文脈）と質問を連結したものを指す．

タスクのデコーダー

一般的にBERTで行われる方法を採用．テキスト分類では文書の最初のトークンの位置のエンコード結果を，線形変換しsoftmaxをとって文書のクラスを推測する．QAでは，質問に対する答えは，コンテキストの特定のハンウィを示すので，開始位置と終了位置候補の位置のエンコード結果を線形変換し，softmax．開始位置と終了位置の掛け算が最大となるものを答えの箇所とする．

episodic memory

既に見たことのある事例を保存し，sparse experience replayとlocal adaptationで利用して忘却を軽減させる．

このモジュールは事例のエンコーダーとは別の事前学習済みBERTをkey networkとして利用する．このBERTはデータ分布が変わっても表現が変わることを避けるためにパラメタは固定．得られるキー表現をu_tとする．

テキスト分類では，文書の最初のトークン位置のエンコード結果をキーとする．QAタスクでは，質問文の最初のトークン位置のものを採用する．両タスクにおいて，入力とそのラベル <x_t, y_t>をメモリのバリューとして保存する．（key-value式，tは1-Tで事例番号）

Write すべての学習事例をメモリに書き込むこともできるが現実的ではないので，適当な確率で，新しくみた事例を書き込むかどうかを決定する，random writeを採用する．予備実験でこの手法は，他手法よりも優れていることが分かったが，分析はfuture workに置いておく
Read メモリモジュールは2つのretrieve手法がある．1: ランダムサンプリング，2: K-Nearest Neighbors．ランダムサンプリングはsparce experience replayに利用し，K-NNはlocal adaptationに利用する（次の章で詳しく）

学習と推論

Algo 1, 2に学習と推論の手順を示す．

Sparse experience replay

通常の学習中に，適当なインターバルでメモリから事例を一様に抽出し，enc-decネットワークの勾配を更新する．これはコストが高いので，10,000の新事例に対して100事例をランダムに取得し，1回だけ勾配更新をかける

Local adaptation

推論時のテスト事例から，Key networkを使ってqueryベクターを取得し，メモリに検索をかけてK個のユークリッド距離的に近い事例を取得．これをlocal adaptationに利用する．Memory-based Parameter Adaptation (Sprechmann 2018)と似ている手法．

local adaptationは勾配ベースの手法で，enc-decモデルのパラメタ（W)を更新し，ローカルパラメタW_iを獲得し，テスト事例iに利用する．W_iは下記のように更新

λはハイパパラメタ
α_kは，k番目の事例で，値は1/Kと一律．
直感的には，ベースのパラメタWとそう離れずに，取得したK個の事例を正しく推論するような式になっている（わかりにくいがargminが1項と2項にかかっているはず，括弧ないけど）
W_iはテスト事例iだけに利用する
式1は解析的に解けなそうなので，勾配ベースでL回のlocal adaptationを繰り返す
// 使い捨てパラメタのためにここまでやるので高コストだが，他の代替手段はfuture work，また代替手段候補は補足4に載っている <img width="596" alt="Screen Shot 2019-11-30 at 5 06 29 PM" src="https://user-images.githubusercontent.com/166852/69897835-dc47c500-1394-11ea-9b1d-fdb3d0b9acfa.png">

実験

データセット

テキスト分類データセットはZhang 2015のこれを利用する．ニュース分類AGNews (4クラス)，感情分類Yelp (5クラス)，記事分類DBPedia (14クラス)，質問回答カテゴリ分類Yahoo/Amazon (Yahoo 10クラス，Amazon5クラス）．YahooとAmazonのデータセットはマージ．全体で33クラス分類の実験セットに．このままだとデータ数に偏りがあるのでバランスさせた（偏りデータセットに対してはfuture work）
QA SQuAD 1.1，TriviaQA, QuACを利用．SQuADはWikipediaベースの機械読解タスク，TriviaQAはトリビアマニアのサイトから集めた事例，QuACはinformation-seekingの対話スタイルのデータセット．生徒がWikipediaの記事に関する質問をして，先生が答えるスタイル

モデル

実験では下記のモデルを比較

Enc-Dec episodic memoryなしの通常のencoder-decoder
A-GEM (Chaudhry, 2019) Average Gradient Episodic Memory．メモリから取得した事例をベースに勾配ベースでモデルパラメタを更新する手法．本モデルとの違いとして，A-GEMはデータセットの識別子が必要で，直前のデータセットからランダムに事例をサンプルすることである．我々のモデルは識別子を不要とし，episodic memoryから固定インターバルでランダムに散布することでその制約を汎化している
REPLAY local adaptationなしでsparse experience replayを行ったモデル．
MbPA (Sprechman) sparce experience replayなしでlocal adaptationを行ったモデル．またMbPAのkeyネットワークは学習可能なネットワークだが，学習可能にしたところ悪化したので固定した
MbPA++(rand) keyネットワークを使わずに，ランダムに事例を取得してlocal adaptationするモデル
MbPA++ 我々のモデル
MTL (Multi Task) 全データセットを同時に学習したマルチタスクモデル．パフォーマンスの上限． // 提案モデルはテキスト分類とQAの両方を1モデルで解けるが，このMTLはおそらくテキスト分類全部で鍛えたもの，QA全部で鍛えたもの，でそれぞれのタスク別に全部入りモデルを学習したのだと思う（説明が1行しかなくよく分からない）

実験パラメタ

4.3参照

結果

学習データは連結されて1 passになる．学習するデータセットの順番にロバストにするために，4つの異なった順番（順番i, ii, iii, ivはAppendix A参照）で学習させた．local adaptationの学習率は，4タスクで最初のデータセットに対して行い，その後の順序に関しては最も良かった設定を利用．テキスト分類とQAの大きな違いとして，テキスト分類では新しい知識がクラスとして他のデータセットで現れるのに対して，QAの範囲を予測する問題ではデータセット間で同様に動くことが求められる

メインの結果はTable 1．テキスト分類は正解率で，QAではF1スコア．

A-GEMが標準的なEnc-Decをoutperformしてるが，両タスクでMbPAより悪い
REPLAY （sparse experience replay）とMbPA(local adaptation)は，破滅的忘却をEnc-Decと比べて軽減している．しかしそれらを組み合わせたMbPA++のほうが強い
keyネットワークを使わずにランダムに事例を取得するMbPA++(rand)はMbPA++より悪化していることより，関連する事例を取得する重要性が分かる．
性能上限とみなせるMTLと比べるとまだ提案モデルとはギャップが有る．
1つのデータセットで学習したモデル（Single Model?）とMbPA++を比べる．（Table 6．// Single Modelは1つのデータセットで学習・評価，Multitaskはすべてのデータセットで学習，ターゲットデータセットで評価したもの，だと思う）
- テキスト分類：平均パフォーマンスで(70.6 vs 60.7)で優れており，転移できていることが分かる
- QA: （62.0 vs 66.0)でビハインド．single datasetモデルの集まりは，データセット毎に異なるモデルパラメタのセットが有るため，パラメタがより多くある．

Fig 2はテキスト分類の正解率とQAのF1スコアを，様々な学習データセットを流していくタイミングで，記録したもの．MbPA++は一貫して他手法よりも安定して性能を維持できているのが分かる．

分析

Memory容量先程の結果は，全事例をメモリに保存していた．そこでメモリに保存する事例を50%, 10%で減らして実験してみた．事例が減るにつれて性能は下がるが，軽微なもので住むことが分かる．
Neighborsの数 local adaptationのときのK-NNのKの数を32以外にも変えてみる．local adaptationは関連する事例を利用することで性能を上げていたことから，このneighborsの値を増やしていくにつれて，直感通り性能が上がる．ただ今回設定した32で割と十分な性能がでている（というかこれ以上の値はout-of-memoryでQAが使えなくなった）
計算複雑性 MbPA++の学習は，episodic memoryを持たないEnc-Decの学習と同じくらいの時間で済みます．というのもexperience replayは10,000ステップで100事例とスパースだから．それとくらべてMbPA++及びMbPAはlocal adaptationがあるので遅い．local adapatation数Lは30にしたが，Fig 3に示すように15は必要．
取得事例の分析結果はAppendix D．構文的にも意味的にも与えられたQueryに類似した事例が取れていることが分かる．

episodic memoryから取得したneighbors事例．QAでは構文的意味的に類似したもの，テキストでは類似トピックが取れている．

local adaptationを適用したことで正解した２つの事例．最初の事例はテーマ的に関連した事例を取得し，２つ目の事例は，短い文なので，構文的に類似した事例をとっていることが分かる．

モデルが取得するには難しい事例（下記は人が判断）．Queryとは異なる形で表現されているため埋め込みスペース的には遠い．まだ我々の手法も改善の余地がある．

結論

episodic memoryを使った言語のlifelongモデルを紹介．episodic memoryでsparse experience replayとlocal adaptationを行い，連続的に学習し，以前に使った知識を再利用できる．我々の手法は破滅的忘却を減少させ，テキスト分類とQAのベースラインを改善

今までにないコンセプトで非常に面白い
本当に知識の再利用ができたのか，そのあたりの細かい分析がほしい
local adaptationはちょっとコストが高すぎる気がする

jojonki / arXivNotes