[2022] Large Language Models with Controllable Working Memory

0. 論文

タイトル	Large Language Models with Controllable Working Memory
リンク	https://arxiv.org/abs/2211.05110
著者	Daliang Li, Ankit Singh Rawat, Manzil Zaheer, Xin Wang, Michal Lukasik, Andreas Veit, Felix Yu, Sanjiv Kumar (Google Research/Deep Mind)
投稿日付	2022/11/09 on arxiv

1. どんなもの？

Large Language Model (LLM) は内部に（重みとして） world knowledge を記憶していることや、prefix として与えられる context をうまく活用することも知られている。ただし、context の内容がタスクと無関係である場合や、LLM の持つ world knowledge と矛盾する場合の振る舞いについては調査されていない。特に、知識のアップデートや修正を考えるときに、モデルは次の順序で情報を処理してほしいと主張。 (1) relevant context (2) model's pretrained world knowledge (3) irrelevant context 本研究では LLM の context による controllability や robustness について分析し、既存モデルの性能が低いことを発見、合わせて解決策である knowledge aware finetuning (KAFT) を提案し、改善を確認した。

2. 先行研究と比べてどこがすごい？

context を用いて、モデルの事前学習と矛盾するような情報を与えても context を優先するようなcontrollability と、無関係な情報を context に与えてもモデルの出力が変わらないことを検証する robustness を既存LLMで分析、うまく行かないことを確認した。
context をうまく活用するための学習方法である KAFT を提案し、独自ベンチマークで効果があることを確認した。

3. 技術や手法のキモはどこ？

既存のデータセットを用いて、irrelevant と counterfactual なデータを augmentation や sampling によって追加データを作成（下表）
- irrelevant は sampling したり(easy)、同じトピックだが答えを導けないようなもの(hard)を持ってくる
- counterfactual は、answer entity 部分を（事実と異なるような）違うものに置き換えて、合わせて label (answer) もそれに変える
これを用いて fine-tuning を行う（KAFT）

スクリーンショット 2022-11-22 17 28 26

4. どうやって有効だと検証した？

T5 と PaLM の LLM を用いて、いくつかの fine-tuning 手法や pre-trained 状態でのモデルと controllability/robustness を比較した。

スクリーンショット 2022-11-22 17 32 01

また、ablation study として KAFT データセットの irrelevant の数や counterfactual の数を減らした場合の挙動も実験し、減らした分 controllability/robustness がそれぞれ悪化することを確認した。

5. 議論はある？

学習データ内の context noise (本来答えを導けないのに context として含まれている学習データ)によって controllability が落ちているため、きれいなデータなら KAFT は必要ないかもしれない。
- 実際 TriviaQA はデータを retrieval system で機械的に作っているため、このデータを使うと controllability が悪化する。
multiple sources
- 本研究では context とモデルの持つ world knowledge を使用したが、情報の信頼性などによって複数ソースを同時に参照したい場合もある。優先度のある複数ソースの context にも対応できるようになると良い。
Dynamically enforce "learning to ignore"
- irrelevant context の場合は元のモデルの出力と合うようにする場合、context ありなしで2回モデルの forward pass を計算し、それをもってロスを研鑽する必要がある。
- まとめてロスにしても良さそうということでロスの提案もしてる

cfiken / paper-reading